2026-03-13 小鹏刘先明挂名工作!EvoDriveVLA:通过蒸馏进化VLA,感知规划不再割裂

原文链接:https://mp.weixin.qq.com/s/g2xFPa6ZUzfD2yWyDYMFwg

小鹏刘先明今年挂名的首篇VLA工作,北大&小鹏联合出品!出发点在于解冻视觉编码器后原生VLM的感知性能会退化,且长程规划能力变弱。因此,EvoDriveVLA想利用蒸馏的方法提升VLA的性能,在特征层和轨迹层对学生模型进行蒸馏。

整体看下来,不是VLA2.0直接使用的模型,但方法论可以迁移过去。

视觉-语言-动作模型在自动驾驶领域展现出巨大应用潜力,然而这类模型在解冻视觉编码器后会出现感知性能退化问题,且在长程规划过程中存在不可避免的累积衰减缺陷。为解决上述挑战,北大&小鹏联合提出了EvoDriveVLA——一种新型协同感知-规划蒸馏框架,该框架融合了自锚定(self-anchored)的感知约束和基于oracle的轨迹优化策略。

具体而言,自锚定视觉蒸馏借助自锚定教师模型施加视觉锚定约束,通过轨迹引导的关键区域感知机制优化学生模型的特征表示;与之并行的基于Oracle的轨迹蒸馏则采用具备未来感知能力的教师模型,结合由粗到精的轨迹优化方法与蒙特卡洛丢弃采样策略生成高质量轨迹候选集,进而筛选出最优轨迹指导学生模型的预测任务。EvoDriveVLA在开环评估中取得了当前最优的性能表现,同时大幅提升了模型在闭环评估中的效果。

  • 论文名称:EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation
  • 论文链接:https://arxiv.org/abs/2603.09465
  • 开源代码:https://github.com/hey-cjj/EvoDriveVLA

一、背景回顾

随着视觉语言模型(VLM)的快速发展,利用视觉语言模型赋能自动驾驶的研究受到越来越多的关注,催生出可直接输出驾驶动作与轨迹的自动驾驶视觉-语言-动作(VLA)模型。与传统端到端方法相比,VLA模型不仅能实现轨迹预测,还可理解导航指令、完成基于场景的问答任务,并能利用思维链推理解决复杂驾驶问题。其卓越的泛化能力与推理潜力,使其成为自动驾驶领域的核心研究方向。但在实际训练过程中,VLA模型存在两大问题:解冻视觉编码器后感知能力下降,以及长期规划中的轨迹稳定性不足。

知识蒸馏作为提升自动驾驶系统性能的关键技术,已成为近期研究的热点方向。现有蒸馏方法可分为单轨迹蒸馏与多轨迹蒸馏两类

  • 以DiMA为代表的单轨迹蒸馏方法:直接利用教师模型预测的轨迹对学生模型进行监督;
  • 而DistillDrive等多轨迹蒸馏方法则通过构建Planning词汇表,促使教师模型生成多样化的轨迹输出,旨在借助结构化的轨迹候选集丰富蒸馏过程中的规划知识,缓解单一轨迹带来的表达能力受限与场景适应性差的问题。

然而,现有方法尚未针对自动驾驶场景设计合理的知识蒸馏方案,主要存在以下三方面不足:

  • (1)作为场景感知核心组件的视觉编码器,在现有训练流程的蒸馏阶段未得到足够重视与有效处理;
  • (2)当教师模型与学生模型在相同设置下训练时,教师模型的规划能力并无实质性优势,无法为蒸馏过程提供更精准、更具信息量的知识;
  • (3)尽管现有多轨迹蒸馏方法提升了教师模型生成轨迹的多样性,但这种多样性在很大程度上受限于预定义的规划词汇表,难以真正适配现实驾驶场景的动态性与上下文相关性。

为解决基于VLA的自动驾驶知识蒸馏方法的上述局限性,北大&小鹏联合提出了EvoDriveVLA —— 一种融合自锚定蒸馏与oracle引导蒸馏的全新自动驾驶协同感知-规划蒸馏框架。

该框架由自锚定视觉蒸馏Oracle引导轨迹蒸馏两大模块构成,可协同提升模型的视觉特征表示能力与轨迹预测性能。

  • 在感知蒸馏层面,本文引入自锚定教师模型以提供视觉锚定约束,防止视觉编码器在解冻后丧失预训练阶段习得的特征表示能力,同时融合轨迹引导的注意力机制,对关键感知区域施加更强的锚定约束;
  • 在规划蒸馏层面,通过融入未来场景图像、自车状态等特权信息构建具备未来感知能力的Oracle教师模型,使其拥有更优的轨迹预测精度。

本文进一步采用由粗到精的轨迹优化策略结合蒙特卡洛丢弃(MC-Dropout)采样,为每个驾驶场景生成多样化的高质量轨迹候选集,随后筛选出最优轨迹作为蒸馏的软目标,实现多模态推理与运动预测中更精细化的知识迁移。实验结果表明,EvoDriveVLA在nuScenes开环评估与NAVSIM闭环评估中均取得了领先的性能表现。

本文的主要贡献如下:

  1. 提出了EvoDriveVLA框架,一种融合自锚定蒸馏与oracle引导蒸馏的自动驾驶协同感知-规划蒸馏方案;
  2. 设计了自锚定视觉蒸馏模块,通过对轨迹引导的关键区域施加视觉锚定约束,提升模型的感知能力;
  3. 提出了Oracle引导轨迹蒸馏模块,借助Oracle教师模型,结合轨迹优化与蒙特卡洛丢弃采样生成高质量的轨迹候选集;
  4. 所提方法在开环评估中达到当前最优性能,同时显著提升了模型在闭环评估中的表现。

二、EvoDriveVLA算法详解

预备知识

自锚定视觉蒸馏

Oracle引导的轨迹蒸馏

三、实验结果分析

开环结果

闭环评测

在闭环评估中,本文将所提方法与其他纯视觉相机方法在NAVSIM基准数据集上进行对比,实验结果如表2所示,所提方法在所有对比方法中取得当前最优性能。此外,本文引入Qwen2.5-VL 3B、Qwen2.5-VL 8B以及InternVL3-8B作为额外基线,实验结果表明:所提蒸馏算法将3B基础模型的PDM分数提升3.4分(相对提升4.2%);值得注意的是,蒸馏后的3B模型性能甚至超越Qwen2.5-VL 8B、InternVL3-8B等更大规模的模型,PDM分数领先2.0分(相对提升2.4%)。上述结果充分证明了所提蒸馏方法在提升模型闭环驾驶性能上的有效性。

消融实验

具体而言,在Oracle引导的轨迹蒸馏模块中,由粗到精的轨迹优化和蒙特卡洛丢弃轨迹采样策略均能持续提升规划的精度和安全性。为进一步验证两者各自的有效性,本文对两种策略分别进行了详细的视觉定量分析。

本文通过核密度估计(KDE)图可视化,对由粗到精轨迹优化前后,教师模型预测轨迹与真实轨迹间的损失分布进行统计分析。结果如图3所示,轨迹优化过程使损失分布向低数值区域显著偏移,零值附近的损失密度显著提升,同时异常值的长尾分布得到大幅缓解,证明了由粗到精的轨迹优化在提升教师模型轨迹预测性能上的有效性。

定性结果

图5展示了所提方法与其他基线方法在nuScenes数据集上的定性对比结果。可见,在不同天气(晴天/阴天)和道路几何形态(直道/弯道)的场景中,所提方法在长时域轨迹预测上的性能显著优于VAD和OmniDrive:具体而言,VAD的纵向预测轨迹往往过短,而OmniDrive则常出现横向偏移问题。

四、结论

本文提出了EvoDriveVLA——一种融合自锚定蒸馏与Oracle引导蒸馏的自动驾驶协同感知-规划蒸馏框架。为解决现有方法中视觉特征表示退化和轨迹预测精度不足的问题,本文设计自锚定视觉蒸馏模块,确保视觉编码器保留其固有的感知能力。

同时,利用融合未来特权信息的Oracle教师模型,为学生模型提供高质量的轨迹指导。通过融入由粗到精的迭代优化和蒙特卡洛丢弃采样策略,进一步提升了教师模型向学生模型的知识迁移质量。本研究为自动驾驶领域中视觉-语言-动作(VLA)模型的高效蒸馏构建了新范式。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论