2026-01-13 NAVSIM SOTA!LatentVLA:通过潜在动作预测构建高效自驾VLA(OpenDriveLab&理想)

原文链接:https://mp.weixin.qq.com/s/09rYGH43GO4oC9afg8WYsA

经过短暂的休整,自驾VLA又开卷了。今天上午,上海创智学院、OpenDriveLab和理想汽车联合提出的新工作 – LatentVLA。92.4 的 PDMS拿下NAVSIM的最新SOTA。有两点值得大家关注:

  • 自监督潜在动作预测:采用以自车为中心的潜在动作预测作为自监督学习目标来训练VLM模型,无需标注,这一点对车端和云端都很友好;
  • 知识蒸馏:将VLM模型学到的表征和推理能力迁移到传统端到端轨迹预测网络,后续期待有实车大规模数据的验证,会有很强的说服力。

近年来,端到端自动驾驶方法在大规模人类驾驶数据集上训练后展现出了令人瞩目的性能。视觉-语言模型(VLM)虽然具有强大的认知能力,但在自动驾驶中面临三大关键挑战:轨迹预测数值不精确、严重依赖语言标注、推理效率低下无法实时部署。如何在不牺牲VLM强大泛化能力的前提下,解决这些难题?LatentVLA给出了一种创新答案:通过自监督潜在动作预测训练VLM,完全无需语言标注,消除语言偏差的同时从未标注轨迹数据中学习丰富驾驶表征。通过知识蒸馏,LatentVLA将VLM的泛化能力迁移到高效视觉网络,实现性能与效率的完美平衡。关键在于,模型学习的潜在动作直接从视觉观测中提取,包含比离散语言标记更丰富的连续驾驶信息,更符合真实驾驶行为。LatentVLA 在 NAVSIM 基准测试上以 92.4 的 PDMS 得分建立了新的SOTA,并在 nuScenes 基准测试上展示了强大的零样本泛化能力。

  • 论文标题: LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
  • 论文链接: https://arxiv.org/pdf/2601.05611

一、背景回顾

近年来,端到端自动驾驶方法在大规模人类驾驶数据集上训练后展现出了令人瞩目的性能。这些模型能够直接将原始传感器输入映射到最终轨迹,有效学习类人驾驶行为,并在广泛的常见场景中表现出色。然而,这些方法仍面临一个根本性挑战:训练数据的场景多样性远低于真实世界交通条件的复杂性和多变性。为应对现实中罕见长尾场景的挑战,最近的研究开始探索利用在大规模互联网数据上预训练的视觉-语言模型(VLMs)的知识。为了更好地适应和利用VLMs在自动驾驶场景中的能力,许多研究在训练阶段将轨迹规划或驾驶方向分类任务与视觉问答(VQA)相结合。虽然上述方法取得了令人印象深刻的结果,但它们仍存在几个关键局限:

(1) 数值不敏感与轨迹不精确 以自回归方式训练的 VLM 受制于语言模型的离散化标记,这不适合连续动作空间。即使有大规模轨迹数据,其输出仍然不稳定且不精确,特别是在长时域轨迹规划中。这种离散表示无法捕获驾驶行为的细微连续变化,导致规划精度受损。

(2) 数据标注负担与语言偏差 大多数VLM训练范式依赖大规模标注数据,使用VQA风格的监督将驾驶目标映射到语言。这会引入语言偏差,限制了对隐性驾驶知识的捕获,可能导致文本描述与实际驾驶行为之间的不匹配。

(3) 计算效率低与认知不对齐 大多数VLMs采用思维链式推理,通过依次提出中间问题来逐步完善理解,最后生成轨迹。尽管这种多步推理可以提高可解释性,但计算成本高且耗时。

因此,我们认为之前的方法未能在保持VLM强大泛化能力的同时,解决数值精度、标注负担和计算效率问题。

二、相关工作

端到端自动驾驶

传统的自动驾驶(AD)系统采用模块化流水线,其中感知、预测和规划组件独立优化并顺序集成。为了解决级联错误并实现联合优化,最近的方法已转向端到端学习,直接将感官输入映射到规划轨迹。

  • Transfuser:开创了多任务学习框架,具有共享特征提取和任务特定头部
  • UniAD和VAD:从多摄像头输入生成鸟瞰图(BEV)表征,并以完全可微的方式顺序执行感知、预测和规划
  • VADv2和Hydra-MDP:对预定义的锚点轨迹进行评分以近似多模态规划分布
  • iPad:通过注意力引导的特征提取迭代细化动态轨迹提案

尽管取得了这些进展,端到端模型仍受训练数据覆盖范围的限制。当遇到训练分布之外的长尾场景时,由于有限的泛化和不足的语义推理,它们表现出性能下降。这一限制促使人们整合大规模视觉-语言模型的世界知识,以增强开放世界驾驶环境中的鲁棒性。

自动驾驶的视觉-语言模型

在端到端自动驾驶系统中整合视觉-语言模型(VLMs)时,弥合语义推理和物理动作生成之间的差距仍然是一个基本挑战。先前的研究已经从基于语言的场景解释发展而来,其中VLMs通过字幕或问答(例如DriveGPT4)促进场景理解,到模块化语言到动作框架,使用VLMs为传统规划器生成元动作。然而,这些模块化方法受到不可微接口的限制,阻止了有效的梯度反向传播并限制了整体优化。最近的进展集中在统一的视觉-语言-动作(VLA)模型上,这些模型直接将多模态感官输入映射到驾驶轨迹,例如:

  • DriveMoE:专家混合架构
  • AutoVLA:自回归动作原语标记化
  • ReCogDrive:通过模仿和强化学习训练的基于扩散的规划器

在这些范式的基础上,本文提出了通过预测当前状态的未来视觉观测学习的潜在动作码本,从而捕获超越传统标记化方法的细微轨迹和上下文信息。通过知识蒸馏将这个码本集成到预训练的VLM中,本方法有效地桥接了语义推理和物理动作空间,实现了更强大的决策制定,并显著提高了自动驾驶任务中的推理效率。

潜在动作学习

机器人操作领域广泛探索了潜在动作表征,以解决跨实体泛化的基本挑战。不同的机器人形态生成不兼容格式和统计特性的动作数据,需要统一的表征方案。

代表性工作

  • VQ-BeT:采用变分自编码器将原始轨迹压缩为结构化潜在空间,实现跨任务迁移和策略适应
  • Genie:通过视频预测目标学习动作表征,其中潜在码从建模帧转换中出现
  • LAPO:在操作场景中直接从像素观测中提取动作
  • LAPA和UniVLA:将这一方法扩展到互联网规模的人类视频,使VLAs能够通过无监督预训练从未标注数据中获取行为先验

自动驾驶环境呈现出对比鲜明的特征。与操作领域的实体多样性不同,驾驶轨迹在数据集之间保持一致的表征——以自车坐标系表示的路径点无论数据来源如何都保持结构统一。这种同质性导致现有工作倾向于从轨迹聚类中衍生的离散元动作分类法。然而,我们识别出一个关键限制:这些分类方案丢弃了传感器观测中存在的丰富视觉语义。受UniVLA自监督范式的启发,本文的LatentVLA直接从视觉观测中学习潜在动作,通过保留VLM推理所必需的视觉基础来展示优越的性能。

三、算法详解

机器人操作领域广泛探索了潜在动作表征,以解决跨实体泛化的基本挑战。不同的机器人形态生成不兼容格式和统计特性的动作数据,需要统一的表征方案。

代表性工作

  • VQ-BeT:采用变分自编码器将原始轨迹压缩为结构化潜在空间,实现跨任务迁移和策略适应
  • Genie:通过视频预测目标学习动作表征,其中潜在码从建模帧转换中出现
  • LAPO:在操作场景中直接从像素观测中提取动作
  • LAPA和UniVLA:将这一方法扩展到互联网规模的人类视频,使VLAs能够通过无监督预训练从未标注数据中获取行为先验

自动驾驶环境呈现出对比鲜明的特征。与操作领域的实体多样性不同,驾驶轨迹在数据集之间保持一致的表征——以自车坐标系表示的路径点无论数据来源如何都保持结构统一。这种同质性导致现有工作倾向于从轨迹聚类中衍生的离散元动作分类法。然而,我们识别出一个关键限制:这些分类方案丢弃了传感器观测中存在的丰富视觉语义。受UniVLA自监督范式的启发,本文的LatentVLA直接从视觉观测中学习潜在动作,通过保留VLM推理所必需的视觉基础来展示优越的性能。

三、算法详解

LatentVLA的解决方案

本文提出了LatentVLA:整合VLM模型优势与传统视觉方法效率和精度的新型框架。

  1. 自监督潜在动作预测:采用以自车为中心的潜在动作预测作为自监督学习目标来训练VLM模型,无需大量语言标注,同时使模型能够从未标注的轨迹数据中学习丰富的驾驶表征。这种方法减轻了语言偏差问题,并显著降低了标注负担。
  2. 知识蒸馏机制:引入知识蒸馏机制,将VLM模型学到的表征和推理能力迁移到传统端到端轨迹预测网络。这一蒸馏过程使学生模型能够继承VLM教师的广泛通用知识和强大泛化能力,同时保持传统端到端方法的计算效率、数值精度和实时性能特征。
  3. 性能突破
    • 在NAVSIM基准测试上达到92.4的PDMS分数,创造新的最优性能(SOTA)
    • 在nuScenes基准测试上展现出强大的零样本泛化能力

以自车为中心的潜在动作学习

VLM 训练

VLM 知识集成:无缝融合传统端到端方法

训练预测潜在动作后,VLM尚不能直接生成轨迹。为解决这个问题,通过专用融合模块将VLM特征与传统端到端方法的特征融合,然后使用所得的组合表征训练融合模型。如图2所示,我们主要基于两个经典的端到端范式验证有效性:基于回归的框架(TransFuser)和基于评分的框架(iPad)。

图2:LatentVLA与传统端到端方法的集成架构

用于 VLM 蒸馏的规划 Transformer

图3:通过规划Transformer蒸馏LatentVLA

四、实验结果分析

NAVSIM测试结果

表1总结了NAVSIM测试的结果。LatentVLA(iPad)达到92.4的PDMS,建立了新的SOTA,通过VLM特征的集成比原生iPad方法(91.7)提高了0.7分。同样,LatentVLA(TransFuser)表现出显著改进,将分数从84.0提高到86.6。关于蒸馏策略,结果证明知识蒸馏可以保持竞争性能。Distilled LatentVLA(TransFuser)达到85.7的PDMS,尽管与非蒸馏版相比降低0.9分,但仍比原始TransFuser基线提高1.7分。更值得注意的是,Distilled LatentVLA(iPad)达到92.1,表现出卓越的鲁棒性,仅降低0.3分(性能保持率99.7%),同时比原生iPad提高0.4分。

表1:NAVSIM性能比较

nuScenes零样本性能

表2总结了nuScenes开环规划上的零样本实验。我们的方法实现了竞争性的零样本性能,平均L2误差为0.33m,在顶级VLM方法中排名靠前。值得注意的是,LatentVLA(iPad)在1s时达到0.13m,在2s时达到0.28m,在这些关键短期时间域上匹配或超越ImpromptuVLA的性能。尽管ImpromptuVLA(L2误差:0.30)和EMMA+(L2误差:0.29)取得了略好的整体性能,但考虑训练数据规模和多样性的显著差异至关重要。EMMA+受益于显著更大的内部数据集,包含来自Waymo的数百万场景,代表不同的地理区域和驾驶条件。ImpromptuVLA利用nuScenes数据集和ImpromptuVLA数据集(80K片段),提供对目标域的广泛暴露。相比之下,我们的VLM专门在OpenScene数据集上训练,与端到端架构集成后,仅在navtrain数据集上训练,而该数据集所涵盖的数据多样性,只占这些基线方法可用数据多样性的一小部分。在 nuScenes 上进行零样本评估所取得的有竞争力表现,表明我们的方法具备很强的跨数据集泛化能力。此外,尽管存在域差异,我们的方法仍显著优于通用视觉语言模型(例如 Qwen-2.5-VL-7B:1.45m),并取得了与专门的自动驾驶方法(例如 OmniDrive:0.33m、EMMA:0.32m)相当的结果。这说明,我们在潜在空间中对VLM的集成能够有效捕获可迁移的驾驶知识,而不会对特定的地理环境或传感器配置产生过拟合。

表2:nuScenes零样本性能

定性分析

图4:挑战性navtest场景的定性比较

图4展示了在navtest数据集的挑战性驾驶场景中不同方法的轨迹规划定性比较。如环岛场景,基线TransFuser未能确定正确的行驶方向,规划轨迹延伸到可行驶区域之外。相比之下,我们的方法都生成了准确遵循有效驾驶区域内车道结构的平滑轨迹。在交叉路口场景进一步突显了我们方法的优势。基线TransFuser再次误判行驶方向,导致规划轨迹进入逆行车道,但我们的方法保持正确的方向判断,实现与真实轨迹相似的规划结果。值得注意的是,蒸馏版本在规划质量上与完整模型相当,验证了我们的知识蒸馏策略。这些结果表明,我们以自车为中心的潜在动作表示能够在复杂城市环境中实现更稳健的场景理解和更安全的轨迹规划。通过在潜在空间中编码丰富的视觉语义,模型能够更好地理解空间关系和驾驶意图,从而在关键决策点做出正确判断。

消融实验

LatentVLA关键组件  表3给出了我们在NAVSIM上对LatentVLA(Transfuser)框架关键组件进行的全面消融实验。从TransFuser基线(ID 1)开始,达到84.0的PDM分数,我们系统性地整合所提的增强功能。仅整合使用navtrain数据集上语言条件潜在动作模型(LAM)训练的VLM的视觉嵌入(ID 2),产生显著改进至85.2 PDM分数。在视觉嵌入之外进一步整合动作嵌入(ID 3),产生额外收益,达到85.6。切换到基于轨迹条件的LAM时(ID 4)出现更显著的改进,将性能提升至86.3(+0.7)。最终配置(ID 5)将VLM训练扩展到更广泛的OpenScene数据集,达到最佳性能86.6 PDM分数。值得注意的是,在所有实验配置中,VLM训练完成后,我们始终将VLM嵌入与TransFuser的BEV特征融合,并专门在navtrain数据集上进行端到端轨迹规划训练。

表3:消融研究

推理速度  为了验证蒸馏对推理加速的有效性,我们使用NVIDIA RTX 4090 GPU评估各种方法的推理速度。我们报告了十次运行的平均结果。直接集成预训练VLA模型会产生显著的计算开销。LatentVLA(TransFuser)和LatentVLA(iPad)都表现出超过780ms的推理延迟,对应帧率低于1.3 FPS——远未满足实时自动驾驶要求。显著的速度下降源于大规模视觉-语言架构和VLA模型固有的自回归动作token生成过程。相比之下,蒸馏方法实现了显著的加速,同时保留了预训练VLA的知识。蒸馏变体将推理延迟降低约3.8倍(从~790ms到~210ms),帧率提高近3.7倍(从~1.27 FPS到~4.8 FPS)。

表4:推理速度比较

五、结论

我们解决了自动驾驶视觉语言模型中的三个关键挑战:轨迹预测对数值不敏感、对语言标注的高度依赖,以及计算效率低下。我们提出了LatentVLA,这是一个通过潜在动作学习和知识蒸馏将VLMs与传统端到端方法协同集成的新型框架。我们的方法将潜在动作预测作为一种自监督目标,使 VLM 能够在无需语言标注的情况下,从无标注的轨迹数据中学习驾驶表征,从而缓解语言偏置并降低标注成本。通过将 VLM 教师模型的知识蒸馏到高效的纯视觉网络中,LatentVLA 在泛化能力、预测精度与计算效率之间实现了适用于实时部署的最佳平衡。实验结果验证,LatentVLA 在 NAVSIM 上达到了当前最先进的性能;尽管仅在 nuPlan 上训练,它仍在 nuScenes 上展现出很强的零样本泛化能力。虽然在更大专有数据集上训练的方法取得了略好的结果,但本工作证明了VLM知识与传统方法的高效集成可以显著提升自动驾驶性能。我们相信,LatentVLA为在实际自动驾驶中利用预训练视觉语言模型提供了一种很有前景的范式。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论