2026-03-31 中科院和长安的DreamerAD,比较清晰的给出了今年自驾世界模型的发展方向

原文链接:https://mp.weixin.qq.com/s/HDRPp3mpKr4gaiiOZ0J4Eg

今天自动驾驶之心和大家聊一篇中科院 & 长安汽车最新的工作:DreamerAD,基于Latent World Model的强化学习端到端框架。

最近行业世界模型的发展有一个比较明显的趋势:从“想象未来”,向 “用未来训练决策” 过渡。

这几个月,自动驾驶行业对世界模型的兴趣,确实是肉眼可见地升温了。有的工作拿它做可控场景生成,比如 GAIA-1、DriveDreamer、MagicDrive 这一类;有人把它向闭环仿真平台上推,比如 DriveArena、DrivingSphere;也开始有一批工作,试图把 world model 学到的未来表征,嵌入端到端/VLA 的训练流程里,让模型不只是“看见现在”,还能够“用未来监督自己”。

DreamerAD 就属于第三类范式,它不是把世界模型当一个外挂的数据增强器,也不只是把未来预测当一个辅助损失。它想做的事情是:让自动驾驶策略在 world model 的 latent imagination 里做强化学习。

本质是让车辆先在世界模型里“开几遍”,再决定现实里怎么开,这大概就是标题的含义 —— DreamerAD

  • 论文标题:DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2603.24587

为什么 world model 这两个月突然又更重要了?

先聊背景。这几年端到端自动驾驶一路发展过来,模型可以直接从相机、历史状态里学未来轨迹,确实带来了更强的统一性,也更容易吃到大模型和大数据的红利。像 DriveVLA-W0 这样的工作,去年就开始把 world model 未来预测引入到 VLA 的训练里,强调要用更密的自监督信号去弥补端到端系统的监督稀缺。

但端到端自动驾驶一直有一个老问题:模仿学习无法真正端到端,理解不了逻辑因果。

这两者差很多。

你让模型看大量人类驾驶数据,它确实可以学会大多数正常驾驶动作。但自动驾驶真正难的地方,从来都不是正常数据分布,而是长尾、犹豫、误判、危险接近、一步小错带来的连锁后果。

模仿学习教会了你“别人通常怎么开”,却没有真正教会你“如果你这么开,3 秒后会撞在哪”。而这件事,恰恰是 world model 最想解决的:给定当前观测和某个动作意图,世界会怎么因为这个动作而变化。

当前,自动驾驶里的 world model,大致可以分三类。

第一类,是“预测未来帧”的生成派。它们更强调可控视频生成、场景编辑、长时序视觉预测,代表工作像 GAIA-1、DriveDreamer、MagicDrive。它们很适合做数据、做 scenario、做生成式仿真。

第二类,是“把世界模型做成模拟器”的闭环仿真派。DriveArena、DrivingSphere 都在往这个方向走:不仅生成未来,还要让未来能承载交互、支持闭环测试甚至训练。

第三类,就是 DreamerAD 所在的这类:直接在 latent future 上做决策优化。这类工作里,DriveVLA-W0 更偏 “把未来预测作为端到端训练的额外监督”,WorldRFT 更偏“在规划导向的 latent world model 上做 RL fine-tuning”,而 DreamerAD 则把重点压到了三件事上:足够快、足够稳、足够可用于高频强化学习。

DreamerAD 在解决什么问题?

DreamerAD 的出发点非常明确。

作者认为,现有 pixel-level diffusion world model 虽然已经能支持 imagination-based training,但有两个关键瓶颈。

第一个是慢。

传统扩散世界模型一帧要采样很多步。DreamerAD 指出:多步 diffusion 推理会带来大约 2 秒每帧的延迟,这个速度根本不适合高频 RL 交互。

第二个是偏。

像素空间的目标,主要关心 “视觉像不像”,而自动驾驶关心 空间关系、动态演化和潜在的危险信号。换句话说,视觉生成关注的是视觉表层的特征(纹理/保真),没有把重点放在驾驶安全最需要的那部分 latent dynamics 上。

DreamerAD 的核心判断是:

自动驾驶不仅需要一个单帧足够保真的视觉场景,更需要一个足够快、足够稳、足够懂物理因果的能力。

DreamerAD的做法是:用视频生成模型中去噪后的 latent feature,当作强化学习里的想象空间。然后围绕这件事,补了三块拼图。

DreamerAD 的主要贡献

DreamerAD 的主要贡献,总结如下:

第一,Shortcut Forcing。

把世界模型的采样从 100 步,压到 1 步,同时尽量不把预测质量压垮。DreamerAD 可以实现80倍 的加速。

第二,Autoregressive Dense Reward Model。

不是等整条轨迹跑完,再给一个总分;而是在 latent representations 里,对不同时间点、不同维度的驾驶质量做密集打分,把 credit assignment 往前推。

第三,Gaussian Vocabulary Sampling for GRPO。

强化学习。在自动驾驶这种强物理约束任务里,轨迹一旦不连续、不平滑,world model 很容易出现幻觉。DreamerAD 把探索限制在“高质量轨迹词表”的邻域内,再做高斯采样,尽量让探索发生在物理可行的流形上。

具体可以把 DreamerAD 理解成一个三层结构。

最底层,是一个会预测未来的世界模型backbone。主要是沿用 Epona:Epona 本身就是一个把视频生成和轨迹规划统一起来的自回归扩散模型,基于 flow matching,既能看历史观测,也能结合动作去预测未来场景和未来轨迹。

中间层,是 latent reward modeling。主要是让模型判断未来场景的好坏。

最上层,才是 RL 优化。策略先生成候选轨迹,再在 latent world model 里 rollout,reward model 给出分步奖励,最后用 GRPO 去优化策略。

这个结构真正有价值的点在于把逻辑捋顺了:生成未来、理解后果、反哺策略。

不过也提一点,基于GRPO的强化学习训练流程还是稍显简单,并没有针对自动驾驶场景做更进一步的物理约束。

DreamerAD 是怎么实现的?

1)先把观测和动作压进 latent 里

2)Shortcut Forcing:把 100 步预测压到 1 步

3)AD-RM:奖励不再只在终点结算

4)Gaussian Vocabulary Sampling

5)最后用 GRPO 做策略优化

实验结果

写在最后

DreamerAD 这篇论文,整体上沿着今年自动驾驶世界模型的主线:做决策训练,而不是场景生成。比较重要的一点在于:RL、Latent World Model、端到端或VLA这三者要统一在一个框架下考虑。

无论是学术界还是工业界,都在考虑如何把物理常识注入到自动驾驶方案中。世界模型、VLA、端到端都只是具体的工具,在这之上,方法论层面还需要进一步发展。

海量的视频学习是一条路,各种规则的if else也是一条路。就目前的进展来说,Physical AI 这个概念确实在逐渐清晰,但怎么把可解释的物理常识显式的注入到模型中,这条路很难,也很值得去做。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论