原文链接:https://mp.weixin.qq.com/s/Krn_uuavYqX_Ia4sp8x9dw
01 前言
本帖介绍World Model + 强化学习打通自动驾驶闭环仿真链路。
自动驾驶达到人类驾驶水平是远远不够的,这项技术的使命是超越人类的驾驶水平,使得驾驶过程更加安全、可靠、轻松。通常大家认为强化学习是自动驾驶超越人类驾驶水平的核心技术,但是以往的一些尝试都没有取得比较明显的成果。理想认为这里主要有两个限制因素:
- 无法实现车端端到端训练:传统的车端架构不能实现端到端的可训练,强化学习做一种稀疏的弱监督过程,在当前的架构上无法实现高效无损的信息传递,强化学习的效果的大大降弱;
- 缺乏真实的自动驾驶交互环境:过去都是基于 3D 的游戏引擎,场景真实性不足,缺少真实的交互自动驾驶交互环境,而且场景建设效率低下且场景建设规模小,模型很容易学偏,发生 hack reward model,模型往往不可用。

VLA 模型的出现解决了上述第一个限制,第二个限制则依赖于真实、良好的 3D 交互环境数据做 3D 重建和生成。
纯生成模型的具备良好的泛化能力能够生成多变的场景,但也会出现不符合物理世界规律的幻觉,必然不满足自动驾驶场景的严格要求。纯重建模型依赖于真实数据呈现出 3D 场景,在大视角变幻下可能出现空洞和变形,也无法满足自动驾驶场景的需求。
理想的解决方案是:以真实数据的 3D 重建为基础,在不同的视角下添加噪音来训练模型的生成能力,从而恢复模糊的视角,这样的话生成模型就具有了多视角的生成能力。
自动驾驶场景重建和生成结合的相关技术细节可参见理想团队今年 CVPR2025 中的四篇论文:StreetCrafter、DrivingSphere、DriveDreamer4D 与 ReconDreamer,参考文献中贴出了链接。
本帖将以 DrivingSphere 为例来解析这个过程。
02 DrivingSphere
2.1 python 端推理 hbm
- 开环模拟在动态决策评估方面的问题:目前的开环模拟方式(例如根据公开数据集进行固定路线的路点预测),虽然能生成很逼真的传感器数据,但它没有动态反馈机制,无法评估自动驾驶系统在动态场景下的决策能力。此外,它的数据分布是固定的,数据种类不多,很难检验算法在不同情况下的适应能力。
- 闭环模拟在视觉真实性和传感器兼容性上的问题:传统的闭环模拟方法(例如基于交通流或游戏引擎的方法),虽然支持通过反馈来驱动多个智能体之间的交互,但存在两个主要问题:
- 它无法处理视觉传感器传来的信息,与基于视觉的端到端模型不太适配。
- 它输出的传感器数据与真实世界的情况差异较大,导致训练场景和验证场景存在“差异”,难以有效检验算法在输入真实数据时的表现。
2.2 创新点
1. 闭环仿真框架与 4D 世界表示:
a. DrivingSphere 是首个融合了几何先验信息的生成式闭环仿真框架。它构建 4D 世界表示(就是把静态背景和动态对象融合成占用网格),能生成逼真且可控制的驾驶场景。这样就解决了开环仿真没有动态反馈,以及传统闭环仿真视觉效果和真实数据有差距的问题。
b. 我们首次将文本提示和 BEV 地图结合起来,用于驱动 3D 占用生成。借助场景扩展机制,我们可以构建城市规模的静态场景,而且这个场景的区域可以无限扩大。
2. 多维度仿真能力突破;
3. 模块化设计与技术整合。
2.3 python 端推理 hbm模型结构

2.3.1 动态环境组成模块
该模块构建包含静态背景与动态主体的 4D 驾驶世界,核心技术围绕 OccDreamer 扩散模型与动作动态管理展开。
将 4D 世界表示定义为:




2.3.2 视觉场景合成模块
该模块将 4D 占用数据转换为高保真多视图视频,核心在于双路径条件编码与 ID 感知表示。
VideoDreamer 框架
VideoDreamer 的输入数据为 4D 驾驶世界和智能体增强嵌入;输出为多视图、多帧的高保真视频序列,支持自动驾驶系统的感知测试。其结构如下图所示:

主要由时空扩散 Transformer(ST-DiT)、条件编码机制、噪声处理与视频生成组成,下面进行逐一介绍。

2.3.3 闭环反馈机制
闭环反馈机制是 DrivingSphere 实现动态仿真的核心模块,通过自动驾驶代理与模拟环境的双向交互,形成 “代理动作 – 环境响应” 的实时循环,支持算法在真实场景下的验证。其技术核心与创新点为:
1. 双向动态反馈:
- 代理动作直接影响环境(如自我代理转向导致周边车辆避障),环境变化又反作用于代理感知,模拟真实交通中的交互复杂性。
2. 多智能体协同控制:
- 通过交通流引擎实现大规模智能体协同(如车流、行人集群),支持复杂场景(如十字路口通行、环岛绕行)的仿真。
3. 数据闭环验证:
- 支持 “仿真 – 测试 – 优化” 的迭代流程:通过闭环反馈暴露算法缺陷(如紧急制动误触发),指导模型改进。
03 参考文献
- StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models
- Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling
- ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
- DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation
- DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

发表回复