2025-09-08理想汽车智驾方案World model + 强化学习重建自动驾驶交互环境

01 前言

本帖介绍World Model + 强化学习打通自动驾驶闭环仿真链路。

自动驾驶达到人类驾驶水平是远远不够的，这项技术的使命是超越人类的驾驶水平，使得驾驶过程更加安全、可靠、轻松。通常大家认为强化学习是自动驾驶超越人类驾驶水平的核心技术，但是以往的一些尝试都没有取得比较明显的成果。理想认为这里主要有两个限制因素：

无法实现车端端到端训练：传统的车端架构不能实现端到端的可训练，强化学习做一种稀疏的弱监督过程，在当前的架构上无法实现高效无损的信息传递，强化学习的效果的大大降弱；
缺乏真实的自动驾驶交互环境：过去都是基于 3D 的游戏引擎，场景真实性不足，缺少真实的交互自动驾驶交互环境，而且场景建设效率低下且场景建设规模小，模型很容易学偏，发生 hack reward model，模型往往不可用。

VLA 模型的出现解决了上述第一个限制，第二个限制则依赖于真实、良好的 3D 交互环境数据做 3D 重建和生成。

纯生成模型的具备良好的泛化能力能够生成多变的场景，但也会出现不符合物理世界规律的幻觉，必然不满足自动驾驶场景的严格要求。纯重建模型依赖于真实数据呈现出 3D 场景，在大视角变幻下可能出现空洞和变形，也无法满足自动驾驶场景的需求。

理想的解决方案是：以真实数据的 3D 重建为基础，在不同的视角下添加噪音来训练模型的生成能力，从而恢复模糊的视角，这样的话生成模型就具有了多视角的生成能力。

自动驾驶场景重建和生成结合的相关技术细节可参见理想团队今年 CVPR2025 中的四篇论文：StreetCrafter、DrivingSphere、DriveDreamer4D 与 ReconDreamer，参考文献中贴出了链接。

本帖将以 DrivingSphere 为例来解析这个过程。

02 DrivingSphere

2.1 python 端推理 hbm

开环模拟在动态决策评估方面的问题：目前的开环模拟方式（例如根据公开数据集进行固定路线的路点预测），虽然能生成很逼真的传感器数据，但它没有动态反馈机制，无法评估自动驾驶系统在动态场景下的决策能力。此外，它的数据分布是固定的，数据种类不多，很难检验算法在不同情况下的适应能力。
闭环模拟在视觉真实性和传感器兼容性上的问题：传统的闭环模拟方法（例如基于交通流或游戏引擎的方法），虽然支持通过反馈来驱动多个智能体之间的交互，但存在两个主要问题：
- 它无法处理视觉传感器传来的信息，与基于视觉的端到端模型不太适配。
- 它输出的传感器数据与真实世界的情况差异较大，导致训练场景和验证场景存在“差异”，难以有效检验算法在输入真实数据时的表现。

2.2 创新点

1. 闭环仿真框架与 4D 世界表示：

a. DrivingSphere 是首个融合了几何先验信息的生成式闭环仿真框架。它构建 4D 世界表示（就是把静态背景和动态对象融合成占用网格），能生成逼真且可控制的驾驶场景。这样就解决了开环仿真没有动态反馈，以及传统闭环仿真视觉效果和真实数据有差距的问题。

b. 我们首次将文本提示和 BEV 地图结合起来，用于驱动 3D 占用生成。借助场景扩展机制，我们可以构建城市规模的静态场景，而且这个场景的区域可以无限扩大。

2. 多维度仿真能力突破；

3. 模块化设计与技术整合。

2.3 python 端推理 hbm模型结构

2.3.1 动态环境组成模块

该模块构建包含静态背景与动态主体的 4D 驾驶世界，核心技术围绕 OccDreamer 扩散模型与动作动态管理展开。

将 4D 世界表示定义为：

2.3.2 视觉场景合成模块

该模块将 4D 占用数据转换为高保真多视图视频，核心在于双路径条件编码与 ID 感知表示。

VideoDreamer 框架

VideoDreamer 的输入数据为 4D 驾驶世界和智能体增强嵌入；输出为多视图、多帧的高保真视频序列，支持自动驾驶系统的感知测试。其结构如下图所示：

主要由时空扩散 Transformer（ST-DiT）、条件编码机制、噪声处理与视频生成组成，下面进行逐一介绍。

2.3.3 闭环反馈机制

闭环反馈机制是 DrivingSphere 实现动态仿真的核心模块，通过自动驾驶代理与模拟环境的双向交互，形成 “代理动作 – 环境响应” 的实时循环，支持算法在真实场景下的验证。其技术核心与创新点为：

1. 双向动态反馈：

2. 多智能体协同控制：

3. 数据闭环验证：

03 参考文献

StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models
Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling
ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

Categories