2026-02-26 Waymo发布全新世界模型！基于Genie 3，可模拟多种异常罕见交通场景

原文链接：https://zhuanlan.zhihu.com/p/2005760149206353027

「重新定义自动驾驶仿真」

当自动驾驶遭遇公路大象、龙卷风拦路这类极端长尾场景，真实路测根本无法覆盖，传统仿真又极易失真崩溃，怎么办？

近日，Waymo联手DeepMind甩出王炸——Waymo World Model。

这款基于Genie 3通用世界模型打造的仿真系统，彻底打破了自动驾驶仿真的固有局限：无需依赖有限的路测数据，就能逼真生成从未见过的复杂场景。它不仅能精准可控地模拟极端工况，更让自动驾驶系统得以提前“预习”现实中几乎遇不到的危机时刻。

Waymo World Model 究竟是如何做到的？它又为行业带来了什么？

01 传统仿真绕不开的两大难题

在聊Waymo世界模型的突破前，先看清自动驾驶仿真行业长期存在的核心痛点：

第一，数据天花板锁死能力上限。行业内绝大多数仿真模型，都只能基于自家车队采集的真实驾驶数据训练。即便Waymo Driver已完成近2亿英里完全自动驾驶里程，对比现实世界的无穷场景，也只是沧海一粟。像极端天气、野生动物上路、突发事故这类长尾场景，现实中难以复现、更无法大规模采集，系统自然无从学习应对。

第二，重建式仿真的失真陷阱。以3D高斯溅射（3DGS）为代表的纯重建方法，只能复刻已有驾驶轨迹的场景。一旦模拟路线与原始轨迹偏差过大，就会因缺少观测数据出现视觉崩溃、结构变形，仿真结果完全无法用于自动驾驶系统的训练与测试。

而Waymo World Model的核心独创性，正是精准破解这两大难题：它没有从零搭建专属仿真模型，而是将DeepMind Genie 3的通用世界知识与自动驾驶场景深度结合，既跳出了自有数据的局限，又解决了仿真真实感与一致性问题，重新定义了自动驾驶仿真的技术范式。

3D激光雷达数据 = (Genie 3世界知识, Waymo硬件参数, 驾驶规则)

注: 公式中为Waymo专属后训练函数，作用是把通用2D视觉信息，结合激光雷达深度感知特性与交通物理规则，转化为符合自动驾驶传感器逻辑的3D数据。

02 从“专属数据闭环”到“通用世界知识”

过过去，自动驾驶仿真的“眼界”完全绑定车队的“足迹”，A企业的模型学不会B车队的场景，这种封闭模式让仿真能力被死死限制。

Waymo World Model的关键突破，就是抛弃了“只靠驾驶数据训模型”的传统思路，借力DeepMind Genie 3通用世界模型。

Genie 3是DeepMind打造的先进通用世界模型，能生成连贯、交互式的3D环境，其核心优势是在海量多样化视频数据上完成预训练——这些视频覆盖全球各类场景、天气、物体，让模型先具备了对真实世界的通用认知，而非只懂“开车”。

图 | 模拟Waymo驾驶员躲避逆向车辆的过程。模拟最初跟随真实事件，随后无缝过渡到使用由高效实时Waymo世界模型自动生成的摄像头和激光雷达图像。

Waymo的关键技术动作，是通过定制化后训练，将Genie 3的2D视频世界知识，转化为自家硬件适配的3D激光雷达输出，可以简单理解为：

这一转化让模型同时具备两大优势：摄像头提供丰富视觉细节，激光雷达输出精准深度信息，二者结合，既能模拟日常城市道路，也能生成车队从未涉足的挪威雪墙公路、美国死亡沙漠等场景，真正实现“没跑过的路，也能逼真仿真”。

03 三大可控机制+实用功能，仿真落地性拉满

光有通用世界知识还不够，自动驾驶仿真必须可操控、可落地。Waymo World Model通过三大控制机制、视频转仿真、可扩展推理三大核心能力，让仿真从“被动复现”变成“主动定制”。

1. 三重控制：想测什么场景，就能造什么场景

模型的仿真可控性通过三套机制实现，覆盖从驾驶行为到场景环境的全维度调整：

驾驶动作控制：反事实场景测试

支持模拟“如果当初换一种开法会怎样”的反事实场景。比如原场景中车辆选择礼让，工程师可通过驾驶输入，测试“不礼让、更主动行驶”的安全性。对比3DGS等重建方法，即便路线与原始轨迹差异极大，模型也能凭借生成能力保持视觉真实，不会出现画面崩溃。

场景布局控制：定制化交通剧本

可自由修改道路布局、交通信号灯状态，自定义其他车辆、行人的行为。工程师能快速搭建施工路段、逆向卡车堵路、鲁莽驾驶变道等高风险场景，无需等待现实中偶遇，大幅提升测试效率。

语言控制：零门槛场景编辑

最灵活的控制方式，无需专业调参，用自然语言就能修改场景。输入“凌晨雾天的金门大桥”“乡村公路遇到大象”，模型即可生成对应场景，把仿真门槛降到最低。

2. 行车视频转仿真：把民间画面变成自动驾驶视角

普通手机、行车记录仪拍摄的视频，无论是雪景高速、日落公路，还是景区山路，Waymo World Model都能将其转化为多模态仿真，还原Waymo Driver的传感器视角。

这一功能的价值在于，突破了车队采集数据的限制——普通人拍摄的海量真实视频，都能成为仿真数据源，且基于真实画面生成的仿真，真实感与事实准确性达到最优，相当于给仿真库开辟了无限的民间素材渠道。

3. 可扩展推理：长时仿真高效不崩

狭窄车道通行、繁忙街区避让等长时段场景，一直是仿真的难点：时长越长，计算量越大，场景越容易失真。Waymo推出模型的高效变体，在保证高真实感的前提下，大幅降低计算消耗，还能以4倍速完成长时仿真，比如高速避障、陡坡避让摩托车、车辆掉头等复杂长流程场景，完美支撑大规模仿真测试需求。

04 总结

Waymo World Model的核心价值，并非能模拟大象上路、龙卷风这类吸睛场景，而是提供了一套用通用世界模型突破自动驾驶数据瓶颈的完整方案：借助Genie 3的跨领域知识，打破传统仿真对自有路测数据的依赖；通过三大可控机制，实现长尾场景的高效定制化仿真；再用高效变体解决长时仿真的效率难题。

尽管模型仍存在量化验证不足、场景适配精度待验等问题，但不可否认，它彻底撕开了自动驾驶仿真的固有壁垒，让行业看到了“虚拟预演现实”的可能。无论是自动驾驶的技术竞争，还是AGI的未来发展，这一世界模型的落地，都注定是一个标志性节点。

参考来源：

1、Waymo. The Waymo World Model: A New Frontier For Autonomous Driving Simulation. Waymo Blog,

2、Google DeepMind. Genie 3: A new frontier for world models. DeepMind Blog, 2025-08-05.

3、Demis Hassabis. Post about the Waymo World Model (X/Twitter).

4、Waymo. Introducing EMMA: An End-to-End Multimodal Model for Autonomous Driving

5、Luozhou Wang et al. A Mechanistic View on Video Generation as World Models: State and Dynamics.

2026-02-26 Waymo发布全新世界模型！基于Genie 3，可模拟多种异常罕见交通场景

01 传统仿真绕不开的两大难题

02 从“专属数据闭环”到“通用世界知识”