自动驾驶:https://mp.weixin.qq.com/s/jCS8ngsAbf4DfnTMiFq1Pw
在端到端自动驾驶(End-to-End Autonomous Driving)领域,世界模型方法通过时序自监督学习场景表示,为轨迹规划提供了密集监督信号。近日,中科院自动化所、长安汽车、北京中关村学院等联合发表名为 Latent-WAM 的最新研究成果,提出了空间感知压缩世界编码器与动态隐世界模型,以仅 104M 参数实现NAVSIM v2 89.3 EPDMS 新 SOTA,超越此前最佳无感知标注方法 3.2分。
近期具身领域一些研究工作发现现阶段World Action Model (WAM) 对于动作规划能力的提升,关键在于训练过程中来自未来视频预测的密集监督信号。在自动驾驶领域中,我们也发现了相同的结论,自动驾驶的轨迹规划性能的提升也更多依赖训练时对未来状态预测提供的密集监督信号,让 backbone 能够获得对场景动态进行建模的能力与场景信息的表征能力;测试时仅靠 backbone 获得的动态建模能力就能实现 SOTA 的轨迹规划性能。
- 论文标题:Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving
- 论文链接:https://arxiv.org/abs/2603.24581
痛点与挑战:现有世界模型方法的三大局限
端到端自动驾驶因其数据驱动特性和可扩展性受到广泛关注。传统的感知-预测-规划一体化方法依赖复杂辅助任务设计和感知标注,限制了算法的进一步规模化应用。
近年来,基于世界模型的方法通过时序自监督学习场景表示,在减少感知标注依赖方面展现出优势。这类方法可分为两类:第一类通过显式视频生成学习规划,但计算开销大且学到的表示倾向于关注与规划无关的视觉细节;第二类通过隐式未来表征预测学习规划相关表示,表示相对轻量且能通过时序自监督捕获动态信息。
然而,现有隐式表征预测方法仍存在显著局限:
- 视觉表征压缩不足:场景信息压缩程度有限,导致后续世界模型训练和轨迹规划计算开销较大;
- 空间理解能力欠缺:缺乏空间理解能力,或在推理时依赖外部深度估计模型,引入额外延迟;
- 时序动态信息利用不充分:仅从第 T 帧预测第 T+1 帧表示,历史和动态信息利用不足。
这引出了一个关键问题:我们如何构建高度压缩且空间感知的世界表征,同时有效建模时序动态信息,实现高效精准的轨迹规划?
技术脉络
自动驾驶 world model 这条线,一个很清楚的趋势是:大家已经不再满足于“学一个未来 latent”,而是开始追问,什么样的表征才对规划真正有用。Latent-WAM 在两个关键的前序工作上实现了更进一步突破:
- World4Drive:核心是把自动驾驶从大量感知标注里解放出来,引入视觉基础模型提供的深度和语义信号,让 latent world model 带上更强的物理和空间先验。
- WorldRFT:进一步提升以规划为中心的表征。它一边做 RL 微调,一边在表征层面明确指出,像 VGGT 这样的几何基础模型,对构建驾驶场景表征是非常有价值的。
Latent-WAM 的核心改进在于:它没有把几何模型当成外挂,而是把几何能力蒸馏进 world representation 本身,试图回答”怎么让这些额外先验,真正高效地服务于端到端规划?“这个问题。
第一,world representation 应该是 planning-oriented 的。
也就是说,表征的价值不在于是不是重建得更像、是不是预测得更全,而在于它是不是更适合后续决策优化。
第二,像 VGGT 这类3D几何基础模型很重要。
WorldRFT 在表征层面已经很明确地表明:几何基础模型带来的空间结构先验,对自动驾驶非常关键。这一点其实很符合直觉,因为规划本来就不是纯语义问题,而是高度依赖3D几何关系、可行驶区域、障碍物布局和空间边界的问题。
不过,WorldRFT 仍然留下了一个没有完全解决的问题:
几何信息很有价值,但到底应该怎么并入 world model,才能既不生硬、又不拖慢系统,还能真正和规划目标对齐?
Latent-WAM 的核心价值:从“利用几何先验”,走向“蒸馏几何表征”
这正是 Latent-WAM 最值得看的地方,它更进一步地解决:
- 视觉 token 如何压缩,才能既轻量又不影响规划的性能
- 几何信息如何注入表征,而不是变成额外 runtime 依赖
- latent world model 如何建模得更像“世界状态演化”,而不只是一步 latent prediction
换句话说,Latent-WAM 不是在继续堆模型参数量,而是把自动驾驶需要的几何理解和动态理解,内化成一种紧凑的 world representation。
核心创新:Latent-WAM 的两大关键设计
为解决上述问题,Latent-WAM提出了两大核心模块:空间感知压缩世界编码器(SCWE) 和 动态隐世界模型(DLWM),针对规划最相关的空间理解和动态演化两大任务,构建高度压缩的世界状态表征。

空间感知压缩世界编码器(SCWE)
SCWE 的目标是将丰富的视觉信息压缩为紧凑的场景表示,同时保持空间感知能力。
场景压缩(Scene Compression)

几何对齐(Geometric Alignment)

动态隐世界模型(DLWM)
DLWM 采用标准的因果 Transformer 在隐空间以自回归的方式预测未来时刻的世界状态。
世界状态表征聚合

因果世界模型预测

Teacher Forcing 注意力掩码
训练中采用 teacher forcing 策略:真实 token 作为上下文预测后续 token,防止时序间误差累积。帧间注意力掩码实现因果预测:frame block 内的 token 能够实现双向注意,跨帧 token 仅能关注到序列中更早出现的 token。这种设计在保持因果一致性的同时,实现所有未来世界状态的并行预测,显著提升训练效率。

3D-RoPE 位置编码

自车状态监督

轨迹规划

训练目标

推理
推理时仅需空间感知压缩编码器和轨迹解码器,无需任何额外模块,也不需要「先想象,后行动」的 WAM 范式,便能够实现高效的轨迹规划。

实验结果
NAVSIM v2

Latent-WAM 在 NAVSIM v2 上取得 89.3 EPDMS,优于所有方法(包括依赖感知标注的方法),在 DDC、TLC、LK 等规则合规指标上排名前列。
值得注意的是,Latent-WAM 作为 perception-free 方法,在 NC(98.1)、DAC(97.3)等安全指标上与依赖感知标注的 Drive-JEPA(NC 98.4、DAC 98.6)接近,而 EC(扩展舒适度)达到 87.3,显著优于 Drive-JEPA 的84.8。
HUGSIM 闭环评估

HUGSIM 是包含 KITTI-360、nuScenes、PandaSet、Waymo 场景的闭环评估基准。Latent-WAM 遵循严格的零样本泛化设定:仅在 NAVSIM 上训练,不在 HUGSIM 上微调。
结果显示,Latent-WAM 达到 45.9 RC(道路完成率)和 28.9 HD-Score,RC 排名第一,HD-Score 与 UniAD 持平,证明 Latent-WAM 是具有跨数据集泛化能力的。
消融实验
通过渐进式消融实验验证各模块有效性:

- 场景表示:为支持世界模型的长时预测,将图像 patch 压缩为紧凑场景 token,仅带来 0.2 的轻微下降。注入几何信息后性能提升至 88.6,证明几何感知对精准轨迹规划至关重要。
- 动态世界建模:在压缩场景 token 基础上,DLWM 通过捕获未来动态将性能从 87.7 提升至 88.0。加入自车状态进一步提升至 88.3,表明自车状态感知能够更好地引导世界状态的正确演变。
所有模块协同工作,最终实现 +1.4 的整体提升。
此外,我们还进行了几组实验去证明几何信息和世界模型的一些有价值的 insight:
如何注入几何信息对规划效果更好?
如表 4 所示,直接拼接冻结几何特征反而导致性能下降至 88.0,可能因为冻结特征与规划目标不匹配,引入冲突信号。而通过蒸馏将几何知识融入视觉主干,端到端训练使模型学习与下游规划内在对齐的空间感知表示,相较两种替代方案均有显著提升。

如何选择 backbone 和训练策略能实现几何能力的蒸馏?
- 骨干规模:如表 5 所示,DINO-Small 达到 86.3 EPDMS,但因参数容量不足以蒸馏高维几何特征而次优。DINO-Base 全量微调达到最佳性能 89.3,表明足够的 backbone 容量对有效蒸馏至关重要。
- 训练策略:LoRA 微调会导致严重退化和不稳定训练(DINO-Small-LoRA 84.7,DINO-Base-LoRA 68.5)。LoRA 的低秩约束不足以蒸馏高维几何特征,需要全参数更新。值得注意的是,DINO-Base-LoRA 比 DINO-Small-LoRA 退化更严重,在相同的 LoRA rank下,更大的模型维度使得低秩更新可覆盖的参数空间比例更小,低秩子空间与高维蒸馏目标之间的不匹配被进一步放大。
通过以上实验可以得出结论:有效的几何蒸馏需要足够的模型容量和全量训练策略保证对齐效果。
世界模型提供的监督信号是否越密集越好?


可视化分析
轨迹对比:更好的专家轨迹拟合能力

如图 4 所示,我们对比了不同基于世界模型方法的预测轨迹(绿色:人类专家演示轨迹,黄色:预测轨迹)。我们的方法更贴合人类专家演示轨迹,并与其他车辆保持更安全的距离。
注意力分布 :更强的场景几何信息理解能力

通过可视化场景 token 与图像 patch 的注意力分布,发现几何蒸馏带来的显著改进:
- 更聚焦的注意力分布:Latent-WAM 专注于车道线、场景结构和可行驶区域等规划关键区域;而原始的 DINO backbone 得到的注意力分散,大量权重分配给天空、远建筑等无关背景。
- 更强的几何结构对齐:Latent-WAM 产生严格对齐几何结构的注意力分布,紧密跟随车道线和障碍物旁安全区域等几何边界。
- 驾驶意图高度相关性:直行、左转、右转不同意图下,注意力分布与意图方向高度相关——模型主要关注预期行驶方向区域,偏离轨迹的区域获得更少的注意力。
质量更高的注意力分布能够使场景 token 在压缩场景表征时更加聚焦规划相关的视觉信息,避免噪声信息对压缩 token 的污染,保证为轨迹规划提供更好的先验表征。
总结
Latent-WAM通过空间感知压缩世界编码器和动态隐世界模型,构建了紧凑且规划相关的世界表示。SCWE从几何基础模型蒸馏空间知识到视觉主干,将多视角图像压缩为少量空间感知场景token;DLWM利用带3D-RoPE的因果Transformer自回归预测未来世界状态,通过自监督视觉预测和监督运动预测获得动态理解能力。
Latent-WAM以仅 104M 参数 和相比于其他 perception-free 方法更少的训练数据,在NAVSIM v2达到 89.3 EPDMS、HUGSIM达到 45.9 RC 和 28.9 HD-Score,均创SOTA。

发表回复