2023-09-11 世界模型:自动驾驶的GPT奇点

生成式人工智能似乎正成为自动驾驶的时间奇点,其在智能汽车行业的作用超乎想象,世界模型的出现可以让人类摆脱驾驶规则的束缚,驰向所往。

一、世界模型(World Models)当我们意图让自动驾驶模型识别一条“(禁止变道的)实线”,并基于此而禁止其变道,虽然短期来看是惊艳的,但长期来看,模型无法为机器预输入所有的世界模型和场景,这将不符合人类心驰神往未知和不确定地带的憧憬,而世界模型的应用可以让人类驾驶到任何想去的地方。

想象一下,从感知层来看,人类是如何为自己实现在未知路况中驾驶导航的?这些路况包括你从左驾转到另一个国家的右驾,从红灯禁止到敢于驾驶进入待行区待行、从晴朗天气进入雨雪风霜,从白天进入黑夜。这些所有的复杂且不未知的场景,我们人类都无法从驾校中或从驾考中学习,但我们仍能够基于我们对实际现实场景的积累学习而实现有效导航。

再来看执行层,人类相当一比例的动作执行都是无意识中发生的,从自动驾驶来看,比如高速行驶中邻道车道突然并线时,人类总会在神经自主控制中,下意识偏移避让。以篮球为例,篮球手可能仅有几毫秒时间预测队友的传球并决定伸出接球手,这可能比球手眼睛的视觉信号到达大脑再作出决策的时间都还要短,篮球手可能只是根据肌肉本能的反应而在潜意识中作出反应。

早在2017 年 2 月 1 日,就有人开始研究通过浏览器模型让汽车学会如何自己开车,而不是预设的道路。人们可以在画面中随意绘入行驶障碍,但两辆汽车仍然能够自主学习并避障。

车联网中的“世界模型”,通常是指一个生成的虚拟环境或场景模型,用于模拟车辆周围的现实世界。这个虚拟模型可以包括道路、交通信号、其他车辆、行人、天气条件等各种元素,以及这些元素之间的相互关系和交互作用。这个世界模型可以由传感器数据、地图数据、实时交通信息等多种信息源来构建和更新,以帮助车辆进行自主导航、决策和规划行驶路径。

如果要简单粗暴理解世界模型,那就是人工智能生成、预测并创建无所不包的逼真的驾驶视频,在此基础上实现机器的训练和学习。似乎这种模式,已将生成式人工智能运用到了极致。

随着chatgpt的面世,LLM的能力令人窒息。但是,自动驾驶的感知-执行层一定不能完全基于大型语言模型的训练,就像一个婴儿无法仅基于在学校学习书本上的知识而成为社会人一样,婴儿需要通过触摸和感知等多模态行为才能更好地理解世界。自动驾驶也需要这种多模态训练,这也难怪OpenAI希望能在GPT-5大力拓展多模态的能力,其实就是为了从单一文本信息源向信息更丰富的其他数据源进行融合拓展。

二、Wayve和Tesla

世界模型的领导者包括Tesla和Wayve。在“CVPR2023”的研讨会上,Tesla和Wayve都分享了各自最近关于World Models方面的工作,而由IEEE/CVF组织的年度计算机视觉和模式识别(CVPR)会议被认为是该领域最重要的会议之一。

根据Wayve介绍,作为Wayve的世界模型,GAIA-1(自主生成人工智能)是一种多模态方法,利用视频、文本和动作输入来生成逼真的驾驶视频。通过对Wayve庞大的英国现实世界城市驾驶数据库进行训练,Wayve的模型学习预测视频序列中的后续帧,从而在不需要任何标签的情况下实现自回归(AR)预测能力。

GAIA-1不仅仅是一个标准的生成视频模型,也是一个真正的世界模型,它学会了理解和解开驾驶的重要概念,包括汽车、卡车、公共汽车、行人、骑自行车的人、道路布局、建筑物和红绿灯,能够成为加速开发自动驾驶基础模型的宝贵工具。

GAIA-1能够通过人类提示词的文字输入,而直接生成对应的视频文字。比如“绕过环岛”等。

2023年3月,比尔盖茨在英国体验了一把Wayve基于世界模型算法的自动驾驶,并惊呼:“其他自动驾驶技术仅适用于特定的地图街道。Wayve的技术运行起来更像是人类司机在一个城市学习驾驶,然后将这些知识应用于新的地方驾驶。”

GAIA-1的真正能力在于它能够体现支撑我们所居住的世界的生成规则。通过对各种驾驶数据的广泛培训,我们的模型综合了现实世界的固有结构和模式,使其能够生成非常逼真和多样化的驾驶场景。这一成就标志着实现体现人工智能的重要一步,在人工智能中,人工系统不仅可以与世界互动,还可以理解和复制其规则和行为。

特斯拉的AI部门提出了自治算法系统(Autonomy Algorithms),此系统能够通过创建和真实世界类似的高保真画面,并规划该空间的轨迹开发驱动汽车的核心算法。为了训练神经网络来预测,算法系统通过结合来自汽车传感器的信息,跨越空间和时间,以算法创建准确和大规模的地面真实数据。

CVPR2023会议上,来自特斯拉的Ashok Elluswamy详细介绍了自治算法系统(Autonomy Algorithms),并解释了基础模型的作用,以及高精地图的被抛弃问题。

从这些世界模型中呈现的自动驾驶视频来看,大部分视频都仍处于画质模糊的状态,这就像马斯克直播FSD12时的掉渣画质一样,画面中生成而呈现的物体影像仍有待更真实。

二、生成式AI法规的行业影响

2023年9月1日,国家互联网信息办公室发布《关于发布第二批深度合成服务算法备案信息的公告》,与上一批次算法备案的明显变化,这次共有110个深度合成服务算法产品进行了算法备案,其中不乏生成式人工智能产品,这是令人振奋的事情。

根据《互联网信息服务算法推荐管理规定》,具有舆论属性或社会动员能力的算法推荐服务提供者需要在备案系统中进行备案手续。算法备案已经成为执法和友商应用市场资质审核的重要内容。未完成备案义务可能会受到处罚或无法满足应用上架资质审查要求。自规定生效以来,已有137家企业近三百多款产品完成算法备案,通过备案的算法数量达到四百多个,覆盖各类型推荐类算法。

但实施过备案的公司应该能够清楚,中国人工智能监管本质上是一种严格的事前监管,通过备案方式提升了对人工智能产品的安全和数据管理。但是,交叉意义上概念不清的“双新评论”,在提交评估报告之前的主体责任评估,以及评估内容和规则仍然可能令人无所适从,评估审批期限也充满不确定性。

种种严格的审批流程,能让企业在创新领域的投入望而却步,在严格的算法安全意识下,即使企业在生成式人工智能上投入海量资源,但仍然可能会因为算法备案而被迫终止——这会导致,没有人愿意将自己的创新投入交到别人手中去判断对与错。

在最新一批的算法备案中,我们大部分情况下只能看到知识问答、多轮对话等应用于日常消遣娱乐领域的算法和模型应用,而难见类似自动驾驶类世界模型类基础模型(Foundation models)的诞生。

但愿这些都是一些暂时的假象。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论