原文链接:https://zhuanlan.zhihu.com/p/2005760149206353027

「重新定义自动驾驶仿真」
当自动驾驶遭遇公路大象、龙卷风拦路这类极端长尾场景,真实路测根本无法覆盖,传统仿真又极易失真崩溃,怎么办?
近日,Waymo联手DeepMind甩出王炸——Waymo World Model。
这款基于Genie 3通用世界模型打造的仿真系统,彻底打破了自动驾驶仿真的固有局限:无需依赖有限的路测数据,就能逼真生成从未见过的复杂场景。它不仅能精准可控地模拟极端工况,更让自动驾驶系统得以提前“预习”现实中几乎遇不到的危机时刻。
Waymo World Model 究竟是如何做到的?它又为行业带来了什么?
01 传统仿真绕不开的两大难题
在聊Waymo世界模型的突破前,先看清自动驾驶仿真行业长期存在的核心痛点:
第一,数据天花板锁死能力上限。行业内绝大多数仿真模型,都只能基于自家车队采集的真实驾驶数据训练。即便Waymo Driver已完成近2亿英里完全自动驾驶里程,对比现实世界的无穷场景,也只是沧海一粟。像极端天气、野生动物上路、突发事故这类长尾场景,现实中难以复现、更无法大规模采集,系统自然无从学习应对。
第二,重建式仿真的失真陷阱。以3D高斯溅射(3DGS)为代表的纯重建方法,只能复刻已有驾驶轨迹的场景。一旦模拟路线与原始轨迹偏差过大,就会因缺少观测数据出现视觉崩溃、结构变形,仿真结果完全无法用于自动驾驶系统的训练与测试。

而Waymo World Model的核心独创性,正是精准破解这两大难题:它没有从零搭建专属仿真模型,而是将DeepMind Genie 3的通用世界知识与自动驾驶场景深度结合,既跳出了自有数据的局限,又解决了仿真真实感与一致性问题,重新定义了自动驾驶仿真的技术范式。
3D激光雷达数据 = (Genie 3世界知识, Waymo硬件参数, 驾驶规则)
注: 公式中为Waymo专属后训练函数,作用是把通用2D视觉信息,结合激光雷达深度感知特性与交通物理规则,转化为符合自动驾驶传感器逻辑的3D数据。
02 从“专属数据闭环”到“通用世界知识”

过过去,自动驾驶仿真的“眼界”完全绑定车队的“足迹”,A企业的模型学不会B车队的场景,这种封闭模式让仿真能力被死死限制。
Waymo World Model的关键突破,就是抛弃了“只靠驾驶数据训模型”的传统思路,借力DeepMind Genie 3通用世界模型。
Genie 3是DeepMind打造的先进通用世界模型,能生成连贯、交互式的3D环境,其核心优势是在海量多样化视频数据上完成预训练——这些视频覆盖全球各类场景、天气、物体,让模型先具备了对真实世界的通用认知,而非只懂“开车”。

Waymo的关键技术动作,是通过定制化后训练,将Genie 3的2D视频世界知识,转化为自家硬件适配的3D激光雷达输出,可以简单理解为:
这一转化让模型同时具备两大优势:摄像头提供丰富视觉细节,激光雷达输出精准深度信息,二者结合,既能模拟日常城市道路,也能生成车队从未涉足的挪威雪墙公路、美国死亡沙漠等场景,真正实现“没跑过的路,也能逼真仿真”。

03 三大可控机制+实用功能,仿真落地性拉满
光有通用世界知识还不够,自动驾驶仿真必须可操控、可落地。Waymo World Model通过三大控制机制、视频转仿真、可扩展推理三大核心能力,让仿真从“被动复现”变成“主动定制”。
1. 三重控制:想测什么场景,就能造什么场景
模型的仿真可控性通过三套机制实现,覆盖从驾驶行为到场景环境的全维度调整:
- 驾驶动作控制:反事实场景测试
支持模拟“如果当初换一种开法会怎样”的反事实场景。比如原场景中车辆选择礼让,工程师可通过驾驶输入,测试“不礼让、更主动行驶”的安全性。对比3DGS等重建方法,即便路线与原始轨迹差异极大,模型也能凭借生成能力保持视觉真实,不会出现画面崩溃。

- 场景布局控制:定制化交通剧本
可自由修改道路布局、交通信号灯状态,自定义其他车辆、行人的行为。工程师能快速搭建施工路段、逆向卡车堵路、鲁莽驾驶变道等高风险场景,无需等待现实中偶遇,大幅提升测试效率。

- 语言控制:零门槛场景编辑
最灵活的控制方式,无需专业调参,用自然语言就能修改场景。输入“凌晨雾天的金门大桥”“乡村公路遇到大象”,模型即可生成对应场景,把仿真门槛降到最低。

2. 行车视频转仿真:把民间画面变成自动驾驶视角
普通手机、行车记录仪拍摄的视频,无论是雪景高速、日落公路,还是景区山路,Waymo World Model都能将其转化为多模态仿真,还原Waymo Driver的传感器视角。

这一功能的价值在于,突破了车队采集数据的限制——普通人拍摄的海量真实视频,都能成为仿真数据源,且基于真实画面生成的仿真,真实感与事实准确性达到最优,相当于给仿真库开辟了无限的民间素材渠道。
3. 可扩展推理:长时仿真高效不崩
狭窄车道通行、繁忙街区避让等长时段场景,一直是仿真的难点:时长越长,计算量越大,场景越容易失真。Waymo推出模型的高效变体,在保证高真实感的前提下,大幅降低计算消耗,还能以4倍速完成长时仿真,比如高速避障、陡坡避让摩托车、车辆掉头等复杂长流程场景,完美支撑大规模仿真测试需求。

04 总结
Waymo World Model的核心价值,并非能模拟大象上路、龙卷风这类吸睛场景,而是提供了一套用通用世界模型突破自动驾驶数据瓶颈的完整方案:借助Genie 3的跨领域知识,打破传统仿真对自有路测数据的依赖;通过三大可控机制,实现长尾场景的高效定制化仿真;再用高效变体解决长时仿真的效率难题。
尽管模型仍存在量化验证不足、场景适配精度待验等问题,但不可否认,它彻底撕开了自动驾驶仿真的固有壁垒,让行业看到了“虚拟预演现实”的可能。无论是自动驾驶的技术竞争,还是AGI的未来发展,这一世界模型的落地,都注定是一个标志性节点。
参考来源:
1、Waymo. The Waymo World Model: A New Frontier For Autonomous Driving Simulation. Waymo Blog,
2、Google DeepMind. Genie 3: A new frontier for world models. DeepMind Blog, 2025-08-05.
3、Demis Hassabis. Post about the Waymo World Model (X/Twitter).
4、Waymo. Introducing EMMA: An End-to-End Multimodal Model for Autonomous Driving
5、Luozhou Wang et al. A Mechanistic View on Video Generation as World Models: State and Dynamics.

发表回复