2026-03-20 自动化所 x 引望提出DynVLA：一种基于 World Dynamics的VLA推理模型

原文链接：https://mp.weixin.qq.com/s/SA9cDXebzrdCXNb4_dsUpQ

过去大家默认 CoT 必须是文本，或者必须是视觉生成，但 DynVLA 证明：对于驾驶任务，最自然的 reasoning object 实际上是 world dynamics。也就是说，未来自动驾驶中的 reasoning 很可能不再围绕 language 或 image，而是围绕 compact dynamics representation 展开。这与 human driving cognition 也更接近：人类驾驶时并不会先在脑中生成一句语言，也不会生成完整未来图像，而是直接形成对未来动态的预测。DynVLA 给出了一个方向：自动驾驶中的 Chain-of-Thought，不一定是文字，也不一定是像素，而可以是 compact world dynamics。 这可能是未来 reasoning-based autonomous driving 的一个关键新范式，也是世界模型+CoT的一次成功尝试。

论文标题：DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving
论文链接：https://arxiv.org/abs/2603.11041
项目主页：https://yaoyao-jpg.github.io/dynvla/

正文介绍

背景

近年来，自动驾驶正在快速进入VLA 范式，即模型同时结合视觉观测、语言指令和状态信息，直接输出轨迹或控制动作。相比传统端到端驾驶模型，VLA 的一个核心优势在于可以引入Chain-of-Thought（CoT）：模型不再只是从 observation 到 action 的直接映射，而是试图在决策前进行中间推理。

然而，现有自动驾驶中的 CoT 设计仍然存在明显瓶颈。目前主流的推理方式主要有两类：一类是 Textual CoT，即先生成类似“前车减速、红灯亮起，因此应减速等待”这样的文本 reasoning，再输出动作。这种方法虽然具备一定可解释性，但语言天然难以表达连续的物理动态和细粒度时空关系。驾驶决策本质上依赖的是连续演化的动态世界，而不是离散语言符号。另一类是 Visual CoT，即先预测未来图像，再根据未来图像生成动作。这类方法能够更直接地建模时空变化，但必须同时预测大量背景纹理和像素细节，其中大量信息与决策无关，导致计算开销巨大，推理 latency 很高。

Dynamics CoT

DynVLA 的核心问题就是：是否存在一种比文本更懂物理、比图像更紧凑的推理形式？ 为此，论文提出了一种新的 reasoning paradigm：Dynamics Chain-of-Thought（Dynamics CoT）。其核心思想不是生成文本，也不是生成完整未来图像，而是先预测未来世界中的动态表示，再基于该动态生成动作，即：

Dynamics Tokenizer

DynVLA 的核心模块是 Dynamics Tokenizer。它的目标是将未来动态压缩成少量离散 token。考虑到 driving scene 中存在两类完全不同来源的变化：一类来自 ego 自身运动，例如加速、转向、制动；另一类来自环境中的其他 agent，例如前车减速、行人横穿、旁车 cut-in。如果将这两类动态混合建模，会出现严重 ambiguity，例如 ego 前进和前车后退在视觉上可能呈现类似 pattern。因此 DynVLA 显式构建了两个 query ：一个用于 ego-centric dynamics，一个用于 environment-centric dynamics。

为了让 tokenizer 学到真正具有物理意义的 dynamics，DynVLA 在训练中引入了两个关键 regularization。第一是 ego action regularization，即使用 ego dynamics token 预测下一时刻动作。通过约束预测动作与真实 action 一致，使 ego token 被迫编码真实 ego motion。第二是 cross-view consistency regularization。作者要求同一组 dynamics token 同时预测 future image 与 future BEV，从而保证不同视角下的 dynamics 具有统一语义。

论文展示了一个非常有代表性的实验：将某个场景中提取出的 dynamics token 注入另一个新场景后，模型仍能稳定生成合理 future evolution，说明模型学习到的是抽象 dynamics knowledge，而不是简单的像素关联。

在完成 Dynamics Tokenizer 训练之后，DynVLA 进入第二阶段，即 Dynamics CoT Supervised Fine-tuning。这一阶段模型不再直接预测动作，而是显式学习一个 structured generation order：先生成 dynamics token，再生成 action token。也就是说，模型被明确训练为“先预测未来动态，再输出驾驶动作”。

第三阶段则是 **Reinforcement Fine-tuning (RFT)**。作者使用 GRPO 对 policy 进一步优化。奖励函数由两部分组成：一部分是 trajectory-level PDMS reward，用于衡量规划质量；另一部分是 format reward，用于确保模型严格遵循 Dynamics CoT 的输出结构。这一阶段使得模型不仅学会 reasoning，而且 reasoning 能真正服务于更安全、更高质量的 planning。

实验

实验结果显示 DynVLA 在多个 benchmark 上都取得了显著优势。在 NAVSIM 上，DynVLA 达到 91.7 PDMS，超过 DriveVLA-W0、AutoVLA、AdaThinkDrive 等现有方法。在 Bench2Drive 闭环评测中，DynVLA 获得 72.73 SR 和 72.23 Mean Multi-Ability，同样优于现有 VLA 方法。

更重要的是，在大规模私有数据下，DynVLA也超过了DriveVLA-W0这一类强VLA模型，证明了其Dynamics CoT的有效性。

从 qualitative case 可以看到，Dynamics CoT 在复杂交互场景中尤其有效。例如在前车即将停车场景中，DynVLA 的 dynamics reasoning 会提前预测 front car stop，因此 ego 提前减速，避免 collision；在道路边界模糊区域，模型能够提前 reasoning 出 curb ahead，从而进行微调 steering，避免 hitting curb。这说明 Dynamics CoT 的优势不仅体现在 benchmark 指标上，更体现在 driving foresight 上。

2026-03-20 自动化所 x 引望提出DynVLA：一种基于 World Dynamics的VLA推理模型

发表回复取消回复

Categories

Archives

2026-03-20 自动化所 x 引望提出DynVLA：一种基于 World Dynamics的VLA推理模型

发表回复 取消回复

Categories

Archives

发表回复取消回复