原文链接:https://mp.weixin.qq.com/s/SA9cDXebzrdCXNb4_dsUpQ
过去大家默认 CoT 必须是文本,或者必须是视觉生成,但 DynVLA 证明:对于驾驶任务,最自然的 reasoning object 实际上是 world dynamics。也就是说,未来自动驾驶中的 reasoning 很可能不再围绕 language 或 image,而是围绕 compact dynamics representation 展开。这与 human driving cognition 也更接近:人类驾驶时并不会先在脑中生成一句语言,也不会生成完整未来图像,而是直接形成对未来动态的预测。DynVLA 给出了一个方向:自动驾驶中的 Chain-of-Thought,不一定是文字,也不一定是像素,而可以是 compact world dynamics。 这可能是未来 reasoning-based autonomous driving 的一个关键新范式,也是世界模型+CoT的一次成功尝试。
- 论文标题:DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving
- 论文链接:https://arxiv.org/abs/2603.11041
- 项目主页:https://yaoyao-jpg.github.io/dynvla/
正文介绍
背景
近年来,自动驾驶正在快速进入VLA 范式,即模型同时结合视觉观测、语言指令和状态信息,直接输出轨迹或控制动作。相比传统端到端驾驶模型,VLA 的一个核心优势在于可以引入Chain-of-Thought(CoT):模型不再只是从 observation 到 action 的直接映射,而是试图在决策前进行中间推理。
然而,现有自动驾驶中的 CoT 设计仍然存在明显瓶颈。目前主流的推理方式主要有两类:一类是 Textual CoT,即先生成类似“前车减速、红灯亮起,因此应减速等待”这样的文本 reasoning,再输出动作。这种方法虽然具备一定可解释性,但语言天然难以表达连续的物理动态和细粒度时空关系。驾驶决策本质上依赖的是连续演化的动态世界,而不是离散语言符号。另一类是 Visual CoT,即先预测未来图像,再根据未来图像生成动作。这类方法能够更直接地建模时空变化,但必须同时预测大量背景纹理和像素细节,其中大量信息与决策无关,导致计算开销巨大,推理 latency 很高。

Dynamics CoT
DynVLA 的核心问题就是:是否存在一种比文本更懂物理、比图像更紧凑的推理形式? 为此,论文提出了一种新的 reasoning paradigm:Dynamics Chain-of-Thought(Dynamics CoT)。其核心思想不是生成文本,也不是生成完整未来图像,而是先预测未来世界中的动态表示,再基于该动态生成动作,即:
Dynamics Tokenizer
DynVLA 的核心模块是 Dynamics Tokenizer。它的目标是将未来动态压缩成少量离散 token。考虑到 driving scene 中存在两类完全不同来源的变化:一类来自 ego 自身运动,例如加速、转向、制动;另一类来自环境中的其他 agent,例如前车减速、行人横穿、旁车 cut-in。如果将这两类动态混合建模,会出现严重 ambiguity,例如 ego 前进和前车后退在视觉上可能呈现类似 pattern。因此 DynVLA 显式构建了两个 query :一个用于 ego-centric dynamics,一个用于 environment-centric dynamics。
为了让 tokenizer 学到真正具有物理意义的 dynamics,DynVLA 在训练中引入了两个关键 regularization。第一是 ego action regularization,即使用 ego dynamics token 预测下一时刻动作。通过约束预测动作与真实 action 一致,使 ego token 被迫编码真实 ego motion。第二是 cross-view consistency regularization。作者要求同一组 dynamics token 同时预测 future image 与 future BEV,从而保证不同视角下的 dynamics 具有统一语义。

论文展示了一个非常有代表性的实验:将某个场景中提取出的 dynamics token 注入另一个新场景后,模型仍能稳定生成合理 future evolution,说明模型学习到的是抽象 dynamics knowledge,而不是简单的像素关联。

在完成 Dynamics Tokenizer 训练之后,DynVLA 进入第二阶段,即 Dynamics CoT Supervised Fine-tuning。这一阶段模型不再直接预测动作,而是显式学习一个 structured generation order:先生成 dynamics token,再生成 action token。也就是说,模型被明确训练为“先预测未来动态,再输出驾驶动作”。
第三阶段则是 **Reinforcement Fine-tuning (RFT)**。作者使用 GRPO 对 policy 进一步优化。奖励函数由两部分组成:一部分是 trajectory-level PDMS reward,用于衡量规划质量;另一部分是 format reward,用于确保模型严格遵循 Dynamics CoT 的输出结构。这一阶段使得模型不仅学会 reasoning,而且 reasoning 能真正服务于更安全、更高质量的 planning。
实验

实验结果显示 DynVLA 在多个 benchmark 上都取得了显著优势。在 NAVSIM 上,DynVLA 达到 91.7 PDMS,超过 DriveVLA-W0、AutoVLA、AdaThinkDrive 等现有方法。在 Bench2Drive 闭环评测中,DynVLA 获得 72.73 SR 和 72.23 Mean Multi-Ability,同样优于现有 VLA 方法。

更重要的是,在大规模私有数据下,DynVLA也超过了DriveVLA-W0这一类强VLA模型,证明了其Dynamics CoT的有效性。

从 qualitative case 可以看到,Dynamics CoT 在复杂交互场景中尤其有效。例如在前车即将停车场景中,DynVLA 的 dynamics reasoning 会提前预测 front car stop,因此 ego 提前减速,避免 collision;在道路边界模糊区域,模型能够提前 reasoning 出 curb ahead,从而进行微调 steering,避免 hitting curb。这说明 Dynamics CoT 的优势不仅体现在 benchmark 指标上,更体现在 driving foresight 上。

发表回复