2026-03-31 中科院和长安的DreamerAD，比较清晰的给出了今年自驾世界模型的发展方向

原文链接：https://mp.weixin.qq.com/s/HDRPp3mpKr4gaiiOZ0J4Eg

今天自动驾驶之心和大家聊一篇中科院 & 长安汽车最新的工作：DreamerAD，基于Latent World Model的强化学习端到端框架。

最近行业世界模型的发展有一个比较明显的趋势：从“想象未来”，向 “用未来训练决策” 过渡。

这几个月，自动驾驶行业对世界模型的兴趣，确实是肉眼可见地升温了。有的工作拿它做可控场景生成，比如 GAIA-1、DriveDreamer、MagicDrive 这一类；有人把它向闭环仿真平台上推，比如 DriveArena、DrivingSphere；也开始有一批工作，试图把 world model 学到的未来表征，嵌入端到端/VLA 的训练流程里，让模型不只是“看见现在”，还能够“用未来监督自己”。

DreamerAD 就属于第三类范式，它不是把世界模型当一个外挂的数据增强器，也不只是把未来预测当一个辅助损失。它想做的事情是：让自动驾驶策略在 world model 的 latent imagination 里做强化学习。

本质是让车辆先在世界模型里“开几遍”，再决定现实里怎么开，这大概就是标题的含义 —— DreamerAD。

论文标题：DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving
论文链接：https://arxiv.org/abs/2603.24587

为什么 world model 这两个月突然又更重要了？

先聊背景。这几年端到端自动驾驶一路发展过来，模型可以直接从相机、历史状态里学未来轨迹，确实带来了更强的统一性，也更容易吃到大模型和大数据的红利。像 DriveVLA-W0 这样的工作，去年就开始把 world model 未来预测引入到 VLA 的训练里，强调要用更密的自监督信号去弥补端到端系统的监督稀缺。

但端到端自动驾驶一直有一个老问题：模仿学习无法真正端到端，理解不了逻辑因果。

这两者差很多。

你让模型看大量人类驾驶数据，它确实可以学会大多数正常驾驶动作。但自动驾驶真正难的地方，从来都不是正常数据分布，而是长尾、犹豫、误判、危险接近、一步小错带来的连锁后果。

模仿学习教会了你“别人通常怎么开”，却没有真正教会你“如果你这么开，3 秒后会撞在哪”。而这件事，恰恰是 world model 最想解决的：给定当前观测和某个动作意图，世界会怎么因为这个动作而变化。

当前，自动驾驶里的 world model，大致可以分三类。

第一类，是“预测未来帧”的生成派。它们更强调可控视频生成、场景编辑、长时序视觉预测，代表工作像 GAIA-1、DriveDreamer、MagicDrive。它们很适合做数据、做 scenario、做生成式仿真。

第二类，是“把世界模型做成模拟器”的闭环仿真派。DriveArena、DrivingSphere 都在往这个方向走：不仅生成未来，还要让未来能承载交互、支持闭环测试甚至训练。

第三类，就是 DreamerAD 所在的这类：直接在 latent future 上做决策优化。这类工作里，DriveVLA-W0 更偏 “把未来预测作为端到端训练的额外监督”，WorldRFT 更偏“在规划导向的 latent world model 上做 RL fine-tuning”，而 DreamerAD 则把重点压到了三件事上：足够快、足够稳、足够可用于高频强化学习。

DreamerAD 在解决什么问题？

DreamerAD 的出发点非常明确。

作者认为，现有 pixel-level diffusion world model 虽然已经能支持 imagination-based training，但有两个关键瓶颈。

第一个是慢。

传统扩散世界模型一帧要采样很多步。DreamerAD 指出：多步 diffusion 推理会带来大约 2 秒每帧的延迟，这个速度根本不适合高频 RL 交互。

第二个是偏。

像素空间的目标，主要关心 “视觉像不像”，而自动驾驶关心空间关系、动态演化和潜在的危险信号。换句话说，视觉生成关注的是视觉表层的特征（纹理/保真），没有把重点放在驾驶安全最需要的那部分 latent dynamics 上。

DreamerAD 的核心判断是：

自动驾驶不仅需要一个单帧足够保真的视觉场景，更需要一个足够快、足够稳、足够懂物理因果的能力。

DreamerAD的做法是：用视频生成模型中去噪后的 latent feature，当作强化学习里的想象空间。然后围绕这件事，补了三块拼图。