2026-04-01 理想这篇Uni-World VLA，在尝试解决世界模型冻结幻觉的问题……

原文链接：https://mp.weixin.qq.com/s/y-G0MHuGh_To6mtTHcoFlg

长安的 DreamerAD，是把世界模型的表征嵌入到端到端/VLA的训练中、小鹏的 X-World 偏云端世界模型多一些、理想的StreetForward聚焦是则是前馈框架下的场景重建。

他们都在做世界模型，但发力点不一样：可控场景生成、闭环仿真 or 重建及辅助训练。

今天和大家分享的是复旦大学、上海创智学院、理想汽车和萨里大学联合完成的新工作——Uni-World VLA，也属于辅助训练的范式。这篇工作探索了一个关键问题：在复杂城市场景中，世界模型应该如何设计建模与规划之间的交互，才能做出更安全、更合理的驾驶决策？

现有的基于世界模型的自动驾驶方法通常采用”预测并规划”或”先预测后规划”的范式。前者虽然在统一架构中进行世界建模和规划，但两个任务在功能上是解耦的，规划器并未显式利用学习到的环境动力学；后者先预测完整的未来若干秒的场景后再进行规划，但隐含假设了环境是静态的，忽视了自车与周围人车之间的持续交互。

更关键的问题在于：当世界模型基于初始意图生成4秒的未来预测时，它实际上产生了一个”冻结的幻觉（frozen hallucination）“。这段预测从生成那一刻便被锁住——它默认环境会对一个固定不变的计划做出响应，而不会随实际动作更新。真实的驾驶并非如此。感知、预判和操作是持续交织的——每一次细微的方向调整，都在实时改变对后续路面状态的判断。将”想象未来”和”决定行动”切分为两个独立步骤，恰恰破坏了这种闭环。

和 DreamerAD 不同，Uni-World VLA 显式利用未来的生成帧辅助VLA训练。但不是以往 “先想象后行动”的模式，这篇工作的方式是逐步交替生成未来帧和自车动作 —— 每预测一帧未来画面，立即生成对应时刻的自车动作，然后将这个动作反馈到下一帧的预测中。

这种逐帧交替的交互形成了世界建模与规划之间的闭环反馈，使得每一步决策都能够基于最新的预测结果不断调整，更贴近人类驾驶时”边观察边调整”的认知过程。此外，模型还引入单目深度信息，通过交叉注意力机制融合到历史帧中，为世界建模提供更强的几何线索，改善长时间跨度的场景预测质量。

在NAVSIM基准测试上的大量实验表明，Uni-World VLA在camera-only方法中实现了PDMS 89.4的优秀性能，并在关键的前进进度（EP）和碰撞时间（TTC）指标上取得最佳分数，同时保持了具有竞争力的视频生成质量（FVD 141.8），证明了交替式预测-规划策略在复杂驾驶场景中的有效性。

论文标题： Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving
论文链接： https://arxiv.org/abs/2603.27287

一、研究背景

自动驾驶系统的核心能力之一，是理解环境如何变化，并据此做出决策。换句话说，它不仅要“看懂现在”，还要“想象未来”，并在这个过程中不断调整自己的行为。这听起来直观，但在真实的城市驾驶中，这其实是一个极具挑战的问题：环境是动态的、充满不确定性的——车辆、行人、交通信号都在不断变化，而且会对自车的行为产生反馈。

从端到端到世界模型

近年来，随着多模态大模型（MLLM）和生成模型的发展，自动驾驶逐渐从传统的端到端模仿学习，走向两条更具潜力的技术路线：一类是Vision-Language-Action（VLA）模型：强调语义理解能力，直接从感知输入预测自车未来轨迹；另一类是世界模型（World Model）：学习环境的演化规律，对未来场景进行生成式预测。

这两类方法各有优势：前者更擅长“决策”，后者更擅长“建模世界”。但在大多数现有工作中，这两种能力往往是割裂的——轨迹预测和环境建模分别优化，缺乏有效的信息共享与协同。

传统方法的局限性

为了打通”看世界”和”做决策”之间的联系，一些工作开始尝试在世界模型框架内同时完成环境建模与轨迹规划。这类工作大致可以归为两种做法：

“预测并规划”（Predict-and-Plan） 范式：世界建模和规划在同一个自回归架构中进行，但两个任务在功能上是解耦的。世界建模专注于基于动作的高保真下一帧预测，而轨迹规划将视觉观察映射到控制输出，但并未显式利用学习到的动力信息。
“先预测后规划”（Predict-then-Plan） 范式：首先预测未来场景，然后基于预测的场景生成自车轨迹。这种方法的一个关键限制是隐含假设环境是静止的，而现实世界的交通本质上是非静态的，自车与周围车辆之间存在持续的交互。

无论采用哪种范式，两者都存在一个共同的限制：在复杂的城市场景中，交通状况瞬息万变。如果世界模型基于初始意图生成多秒的预测序列（例如4秒），它实际上产生了一个”冻结的幻觉”。它默认自车会按照一个固定计划行驶，环境会对这个“固定计划”做出响应，而这个计划在预测过程中不会更新。

然而，在现实中的驾驶中，哪怕在0.5秒时做出一次轻微刹车或转向，也可能改变接下来几秒的整个交通演化。因此，当规划器依赖较远时刻（例如第3秒）的预测结果时，这些信息很可能已经失效——它并没有反映自车在更早时刻做出的调整。

不同的世界模型生成范式对比

除了“预测与规划如何交互”，还有一个同样关键、但常被忽略的问题：模型到底有没有真正理解三维世界？

目前大多数基于camera-only的世界模型，本质上是在做2D图像序列建模。它们可以很好地生成“看起来合理”的画面，但这并不意味着模型真的掌握了场景中的几何结构。然而，自动驾驶需要精确的3D空间推理能力——理解周围物体的深度、距离、相对位置以及场景的几何结构。这些问题，本质上都与深度（距离）和空间结构密切相关。

二、核心方法

针对前面提到的两个核心问题——**”冻结幻觉”导致的预测与规划脱节，以及camera-only模型缺乏三维几何理解——本文提出了Uni-World VLA**：一个统一的视觉-语言-行动（VLA）模型，在同一个框架中同时建模世界演化与驾驶决策。

1. 总体框架

如图所示，Uni-World VLA 的输入包括历史自车视角图像、辅助自车状态信息，以及文本提示。其中，图像首先被编码为离散的视觉token，自车速度、加速度和高层驾驶指令则被组织为ego token。随后，这些历史信息一起输入到多模态大语言模型中，由其进行自回归式生成。

模型最终输出两类结果：

未来帧：用于刻画场景演化；
动作序列：用于表示自车未来轨迹。

Uni-World VLA方法概览

2. 输入与输出

模型接收过去一段时间内的自车视角图像序列、文本提示词、以及当前时刻的辅助状态信息作为输入信息。为了同时捕捉场景语义和短时运动变化，历史视觉信息被组织成两部分：

Contextual tokens：来自较高分辨率的历史帧，主要保留场景结构和语义信息；
Dynamic tokens：以较低分辨率、10Hz采样的方式提取，更关注细粒度运动变化。

此外，系统提示词和任务提示词也会被一并编码，使模型能够更清楚地理解当前任务目标。

整体上，输入可以写成类似下面的形式：

[System Prompt | Dynamic & Contextual Tokens | User Prompt | Ego Tokens]

其中，Ego tokens表示速度、加速度和高层驾驶指令的组合，反映当前自车状态与导航意图。

在输出部分，生成得到的未来视觉token，会通过MagVIT-v2的解码器还原成对应的RGB未来帧。而动作token则会经过一个MLP头，回归出对应时刻的自车位置，最终形成一段完整的未来轨迹。

3. 交替式帧-动作生成

4. 训练目标

5. 推理方式

在推理阶段，模型按照自回归方式逐步生成未来帧和动作。先基于当前时刻视频帧生成下一帧未来场景，再将该时刻对应的动作query输入模型中预测对应动作；随后把新生成的视觉token继续加入上下文，推动下一步视觉预测。

为了同时建模时序依赖和帧内空间关系，本文采用了因果约束下的混合注意力设计：在时间维度上，模型只能看到当前时刻之前的历史信息，保证未来信息不会泄漏；而在同一帧内部，token之间则允许充分交互，以捕捉图像内部的空间关联。

为提高效率，模型还会复用前一步的KV-cache，避免重复计算整段历史序列。因此，整个推理过程本质上就是一个持续更新的交替闭环：模型一边预测环境，一边更新决策。

训练和推理过程示意图

6. 深度信息融入

三、实验结果

主要结果对比

我们在自动驾驶仿真基准NAVSIM v1上对方法进行了系统评估。该数据集提供高保真的第一视角图像序列以及结构化规划标注，能够同时评估“看世界”和“做决策”的能力。模型以2秒历史观测为输入，预测未来4秒（8帧）的场景与轨迹。

在NAVSIM基准测试集上的性能对比：

Uni-World VLA 在核心指标PDMS上达到89.4，整体性能领先所有对比方法。
在关键安全与效率指标上表现突出：
- EP更高 → 行驶更高效；
- TTC更优 → 更安全。
在仅使用 前向单目相机（front-camera-only） 的条件下，依然取得领先结果。

视频生成质量对比：

Uni-World VLA在视频生成指标FVD上达到141.8，略优于DrivingGPT，同时在规划性能上显著更优（PDMS 89.4 vs 82.4）。

预测帧和BEV轨迹可视化：

可视化结果显示，预测的未来帧在时间上保持良好的连贯性；BEV图中也展示出规划轨迹与真实轨迹之间良好的贴合度。

消融实验

(1) 预训练、未来帧和深度的影响

预训练带来最大提升（PDMS从82.1提升到88.2），说明基础模型本身的表征能力非常关键；启用未来帧生成进一步提升性能（PDMS从88.2提升到89.2），显式建模“未来世界”，确实能为轨迹规划提供更有效的上下文；添加深度信息显著改善视频质量（FVD从164.2降至141.8），略微提升规划表现（89.2到89.4）。

深度融合可视化对比：

从可视化可以更直观地看出差别：

在2.0秒时，两者差别不大；
到3.0秒，无深度模型开始出现结构模糊（尤其是高速场景）；
到4.0 秒，尤其是转弯场景差异明显：
- 无深度：结构发散、几何不稳定；
- 有深度：空间布局更清晰、预测更连贯。

(2) 不同交替生成方案的影响

我们设计了5种不同的生成方式（A–E），本质区别在于帧和动作的生成频率，及其对齐方式。其具体的交替预测逻辑如下图所示（F表示视频帧，A表示动作）。

方案E直接在2Hz评估频率下对齐帧和动作生成，采用严格的F→A（帧到动作）交替，取得最佳整体性能，表明将生成频率与规划/评估协议匹配可以提高时间一致性和规划质量。而方案B、D 这种“看起来更细致”的方案反而更差。这可能是由于生成的时间频率和评估/规划的频率不一致。如果训练时是10Hz，但评估是2Hz，就会出现“学得很细，但学不精”的问题。

(3) 历史视觉信息的影响

表中比较了不同历史视觉信息配置对模型性能的影响。

使用2.0 s的Contextual + Dynamic tokens（完整配置）时，整体性能最佳（PDMS 89.2，EP 82.9，FVD 164.2）；
将历史长度缩短至1.0 s，NC 和 TTC 略有提升，但PDMS（88.8）和 FVD（170.7）下降；
仅使用Contextual tokens时，仍能保持较高性能（PDMS 89.1），且DAC 最优（96.8）；
仅使用Dynamic tokens时，性能显著下降（PDMS 81.7，FVD 203.6）。

这表明Contextual所提供的更高清晰度的历史信息相比低清但高频的Dynamic更重要。且在较长历史时间（2.0 s）上结合二者所取得的整体效果最佳。

表中比较了不同历史视觉信息配置对模型性能的影响。

使用2.0 s的Contextual + Dynamic tokens（完整配置）时，整体性能最佳（PDMS 89.2，EP 82.9，FVD 164.2）；
将历史长度缩短至1.0 s，NC 和 TTC 略有提升，但PDMS（88.8）和 FVD（170.7）下降；
仅使用Contextual tokens时，仍能保持较高性能（PDMS 89.1），且DAC 最优（96.8）；
仅使用Dynamic tokens时，性能显著下降（PDMS 81.7，FVD 203.6）。

这表明Contextual所提供的更高清晰度的历史信息相比低清但高频的Dynamic更重要。且在较长历史时间（2.0 s）上结合二者所取得的整体效果最佳。

结论

本文提出的 Uni-World VLA 是一个统一的VLA模型，通过交替生成范式紧密耦合世界预测和轨迹规划。主要创新点包括：

交替式建模与规划：采用逐步反馈范式，紧密耦合世界建模和轨迹规划，使规划决策能够根据新预测的观察持续优化；
深度融合策略：引入单目深度图并通过交叉注意力与历史帧融合，为未来帧预测提供互补的空间线索。

实验结果表明，这种交替式预测-规划策略是有效的：在 NAVSIM 基准上，Uni-World VLA 在 camera-only 条件下取得了 PDMS 89.4 的成绩，并在 EP 和 TTC 等关键指标上表现突出，同时保持了具有竞争力的视频生成质量（FVD 141.8）。这也说明，面向自动驾驶的世界模型，真正重要的不只是“预测得像不像”，还包括能不能在预测过程中持续修正决策。从这个角度看，Uni-World VLA 提供了一种更贴近真实驾驶过程的建模思路。

进一步来看，这种“预测—决策交替进行”的框架，并不局限于自动驾驶。在当前快速发展的具身智能（Embodied AI / Robotics）领域，智能体同样需要在与环境的持续交互中完成感知、预测和控制。如果将世界建模与动作决策解耦，往往难以应对真实环境中的动态变化。Uni-World VLA这种交替式闭环机制，让模型在执行过程中可以不断根据新的观测调整自身决策，也类似于真实机器人“感知—行动—再感知”的工作方式。因此，这一思路也为具身智能系统中如何统一建模与控制提供了一种值得探索的方向。

2026-04-01 理想这篇Uni-World VLA，在尝试解决世界模型冻结幻觉的问题……

发表回复取消回复

Categories

Archives

2026-04-01 理想这篇Uni-World VLA，在尝试解决世界模型冻结幻觉的问题……

发表回复 取消回复

Categories

Archives

发表回复取消回复