2026-03-04 端到端新思路！北交&小米提出DriveWorld-VLA：自动驾驶的VLA统一世界建模

原文链接：https://zhuanlan.zhihu.com/p/2010819320008184239

北京交通大学与小米汽车联合团队提出的 DriveWorld-VLA，直击当前自动驾驶决策规划中VLA（视觉-语言-动作模型）与世界模型融合的两大核心困局：

解耦交互（Disentangled Interaction）的知识壁垒：传统方案常将世界模型视为外部模拟器，导致VLA无法真正内化物理规律（如惯性、碰撞逻辑），决策时往往缺乏对环境本质的理解；
特征共享（Feature-Sharing）的因果缺失：部分方案虽共享表征，却缺乏基于动作的“What-if”推演能力，只能进行反应式规划，难以预判长时域风险（如路口会车）。

针对上述瓶颈，DriveWorld-VLA通过在潜在空间实现VLA与世界模型的深度绑定，首次将场景演化建模与动作规划纳入统一框架。

这一突破既解决了潜态共享不足的问题，又实现了可控的前瞻性想象，在多个权威基准上刷新SOTA性能，为端到端自动驾驶的决策优化提供了全新思路。

01 从“松散协同”到“潜空间统一”

DriveWorld-VLA的核心创新，在于打破了VLA与世界模型的结构边界，构建了“表征共享-推理联动-决策闭环”的一体化框架，其突破点集中在三个维度：

1. 特征级共享：用LLM潜态打通感知与想象

不同于传统的特征拼接或表层共享，DriveWorld-VLA将大型语言模型（LLM）的隐藏状态作为统一潜在空间，同时承载未来场景想象与动作预测两大核心任务。

多模态输入（多视图图像、BEV特征、文本指令、历史动作）经过专属Tokenizer编码后，共同送入VLM模型聚合为统一潜态表示：

这个公式的核心价值，是让物理规律（如车辆制动距离）、环境动力学（如行人行走轨迹）等底层知识，通过潜态空间直接融入VLA的决策过程，无需额外的跨模块适配，从根源上解决了知识传递效率低的问题。

2. 动作条件的“What-If”推理：从反应式到主动式规划

基于扩散Transformer（DiT）架构，DriveWorld-VLA实现了动作条件下的多轨迹前瞻性推演。模型不再局限于预测单一未来状态，而是针对多个候选动作生成对应的未来场景演化，通过评估不同动作的长期后果选择最优方案——比如面对前方慢车时，会同时推演“减速跟车”“安全变道”“紧急制动”三种动作对应的场景变化，最终选择兼顾安全与效率的轨迹。

这种设计的关键在于动作条件的流匹配去噪机制，通过将未来动作作为约束条件注入场景生成过程，让想象变得“可控可评估”，彻底摆脱了传统模型“见招拆招”的被动局面。

3. 三阶段渐进式训练：稳定联合优化的工程方案

VLA与世界模型的联合训练容易出现收敛困难、模态失衡等问题。DriveWorld-VLA设计了循序渐进的三阶段训练范式，既保证了各模块的专项优化，又实现了全局协同：

第一阶段（VLA & WM联合训练）：同步学习未来BEV场景想象与动作预测，夯实多模态感知与潜态表征基础；

图| 阶段 1：在共享潜在表征空间中，联合学习未来鸟瞰图（BEV）想象与动作预测

第二阶段（动作可控性微调）：通过流匹配损失训练DiT架构，让模型学会“动作-场景”的映射关系，实现可控的未来想象；

图| 阶段 2：对生成分支施加未来动作的条件约束，将给定的动作序列映射到其对应的未来状态

第三阶段（未来引导的评估与精修）：构建闭环反馈机制，用预测动作生成未来场景，再通过奖励函数评估动作质量，反向优化决策模块。

图| 阶段 3：形成闭环：首先预测动作，然后想象由此产生的未来，最后利用奖励反馈来优化动作预测

这种“先基础、再可控、后闭环”的训练逻辑，有效避免了联合训练中的梯度震荡，让模型在感知精度、想象合理性与决策安全性之间找到平衡。

02 核心设计拆解

DriveWorld-VLA的性能优势，源于其在表征设计、推理架构和训练策略上的精细化打磨，三个核心设计共同构成了其技术护城河：

1. 多模态Tokenization：让输入适配统一潜态空间

为了让异质多模态数据（图像、BEV、文本、动作）能高效融入LLM潜态空间，模型为不同输入设计了专属Tokenizer：

图像与文本：遵循InternVL的编码逻辑，通过自适应分块将图像转化为文本域视觉占位符令牌，确保视觉信息与文本指令的语义对齐；
BEV特征：经BEVFormer提取后，通过空间扁平化投影至VLM嵌入空间，保留鸟瞰视角的全局环境信息；
历史动作：序列化为准自然语言提示，与文本导航指令拼接编码，让动作历史具备语义可解释性。

这种统一的Tokenization策略，避免了多模态数据融合时的信息丢失，为潜态空间的知识共享奠定了基础。

2. 双分支去噪器：兼顾历史依赖与动作可控

模型的去噪器（Denoiser）包含两个分支，分别承担不同功能：

历史条件分支：仅基于历史观测进行未来BEV预测，提供密集的未来监督信号，辅助多模态感知模块的训练；
动作条件分支：基于DiT架构的流匹配去噪器，以当前BEV状态和未来动作作为条件，学习“动作-场景”的映射关系。其核心损失函数为：

该公式的核心作用，是让模型学会根据特定动作精准生成对应的未来场景特征，从而实现“输入动作序列→输出场景演化”的可控想象，为后续的动作评估提供可靠依据。

3. 奖励引导的闭环精修：让决策学会“反思”

第三阶段的闭环机制是DriveWorld-VLA决策优化的关键。模型首先基于当前观测预测动作，再通过去噪器生成该动作对应的未来场景，随后由奖励函数R评估“动作-场景”的匹配度——奖励分数不仅考量轨迹的安全性（如是否碰撞、是否偏离车道），还兼顾效率（如行驶进度）与舒适性。

最终，模型将奖励分数作为权重，对动作预测损失进行加权优化：

这种设计让模型学会“反思”：如果某个动作会导致高风险或低效率的未来场景，就会在训练中被重点修正，从而逐步形成“预判-评估-优化”的决策闭环。

03 多基准SOTA

DriveWorld-VLA在closed-loop（NAVSIMv1、NAVSIMv2）和open-loop（nuScenes）三大权威基准上全面突破，其性能表现不仅验证了架构设计的有效性，更体现了实际应用价值：

图| NAVSIM 数据集 4 秒轨迹规划的核心可视化，对比 Stage2/Stage3/GT（真实轨迹）的规划效果

1. NAVSIMv1：91.3 PDMS刷新闭环规划上限

NAVSIMv1是基于OpenScene数据集构建的闭环规划基准，核心指标PDMS综合考量无碰撞（NC）、可行驶区域合规（DAC）、碰撞时间（TTC）、行驶进度（EP）和舒适性（C）五大维度。DriveWorld-VLA以91.3的PDMS成绩远超所有对比方法：

无碰撞率（NC）达99.1%，仅略低于人类驾驶（100%），展现了极强的风险规避能力；
行驶进度（EP）85.9%，在保障安全的同时兼顾行驶效率，避免了“过度保守”的决策；
舒适性（C）满分100%，说明模型能有效避免急加速、急刹车和急转弯，符合人类驾驶习惯。

值得注意的是，DriveWorld-VLA仅使用3个前视摄像头作为输入，而部分对比方法依赖LiDAR点云或多视角环绕摄像头，在硬件成本更低的情况下实现了更优性能，具备更强的工程落地潜力。

2. NAVSIMv2：86.8 EPDMS领跑复杂场景适应

NAVSIMv2在PDMS基础上新增了行驶方向合规（DDC）、交通灯合规（TLC）、车道保持（LK）等更严格的评估维度，更贴近真实道路场景。

DriveWorld-VLA以86.8的EPDMS持续领跑，其中：

行驶方向合规（DDC）99.6%、车道保持（LK）97.0%，说明模型对交通规则的理解与执行能力突出；
无过错碰撞率（NC）98.6%、可行驶区域合规（DAC）99.1%，在多约束场景下仍能保持极高的安全性。

3. nuScenes：0.16%碰撞率彰显短时域规划优势

nuScenes是户外自动驾驶的主流open-loop基准，DriveWorld-VLA在禁用 ego-state 信息（车辆自身位置、速度等）的公平对比条件下，实现了0.61m的平均L2轨迹误差和0.16%的3秒平均碰撞率——这一碰撞率不仅大幅低于E2E和世界模型类基准方法，甚至超过了HERMES-p、FSDrive等专门优化短时域规划的SOTA模型，证明其决策策略的安全性具有普适性。

04 消融实验的关键发现

团队通过多组消融实验，验证了核心设计的必要性，其中三个结论尤为值得关注：

1. 渐进式训练是性能保障

若跳过渐进式流程，在第一阶段后直接同时训练第二、三阶段，模型PDMS会骤降7.7分（从91.3降至83.6）。这说明，模型必须先通过联合训练夯实多模态感知与潜态表征基础，再逐步解锁动作可控与闭环优化能力，否则会出现模态失衡或收敛困难。

2. VLM的动态优化不可少

实验表明，仅冻结VLM参数或省略预训练微调，都会导致性能下降。最优策略是在第一阶段允许VLM参数参与优化，并结合3轮监督微调（SFT）——这能让VLM更好地适配自动驾驶场景的多模态数据，精准建模共享潜态空间的特征分布。

3. 特征级监督提升想象精度

仅依赖任务级监督（如语义BEV解码、动作模仿学习）会导致模型缺乏细粒度特征 guidance，而弱化特征级监督（如去噪过程的流匹配损失）则会降低未来场景想象的准确性。两者的互补，是实现“精准想象-可靠决策”的前提。

05 未来展望

DriveWorld-VLA的核心价值，远不止于刷新各基准的SOTA成绩，更在于其提出了一套VLA与世界模型深度融合的完整方法论。

它以LLM潜态空间打破表征壁垒，依托DiT架构实现动作条件下的可控因果推理，通过三阶段渐进式训练保障联合优化稳定性，推动自动驾驶决策从“反应式”向“前瞻式”升级，也印证了端到端自动驾驶的决策优化，可通过架构创新实现“感知-推理-规划”的深度协同，而非单纯依赖复杂传感器或海量标注数据。

未来，随着动态场景适配、物理先验融入、轻量化技术等方向的技术突破，该模型所打造的“潜空间统一建模”思路，有望成为端到端自动驾驶领域的主流框架，为技术落地奠定核心基础。

Ref：

论文标题：DriveWorld-VLA: Unified Latent-Space World Modeling with Vision–Language–Action for Autonomous Driving

论文地址：https://arxiv.org/pdf/2602.06521v1.pdf

代码地址：https://github.com/liulin815/DriveWorld-VLA.git

2026-03-04 端到端新思路！北交&小米提出DriveWorld-VLA：自动驾驶的VLA统一世界建模