2025-08-20 复旦最新LMAD:迈向可解释端到端VLM~

原文链接:https://mp.weixin.qq.com/s/VVzMb5j8lGotRZAcZN4w1A

概述

随着自动驾驶技术的快速发展,场景理解与行为可解释性成为核心研究方向。大型视觉语言模型(VLMs)在连接视觉与语言信息、解释驾驶行为方面展现出潜力,但现有方法多通过微调VLMs处理车载多视图图像和场景推理文本,存在整体场景识别不足、空间感知薄弱等问题,难以应对复杂驾驶场景。

为此,本文提出LMAD框架一种专为自动驾驶设计的视觉语言框架。其借鉴现代端到端驾驶范式,通过引入初步场景交互(Preliminary Interaction,PI)机制和任务专用专家适配器,增强VLMs与自动驾驶场景的对齐性,同时兼容现有VLMs并无缝集成规划导向的驾驶系统。在DriveLM和nuScenes-QA数据集上的实验表明,LMAD显著提升了现有VLMs在驾驶推理任务中的性能,树立了可解释自动驾驶的新标准。

核心挑战与创新

现有方法的局限性

现有基于VLMs的自动驾驶方法存在两点关键缺陷:

  1. 场景理解碎片化:依赖驾驶系统的中间结果或简单视觉表征,难以捕捉交通元素间的关系,无法形成整体场景认知(figure 1a)。
  2. 空间与运动感知薄弱:在定位和运动估计上表现不足,推理过程中易积累误差,导致驾驶任务性能不佳。

LMAD的创新设计

针对上述问题,LMAD的核心创新包括:

  1. 初步场景交互(PI)机制:建模交通参与者的初步关系,降低VLMs的学习复杂度。
  2. 任务专用专家结构:通过并行LoRA(P-LoRA)模块,使VLMs专注于感知、预测、规划等特定任务,获取任务专属知识。
  3. 端到端系统集成:融合端到端驾驶系统的先验知识,补充VLMs的空间和运动信息,增强推理能力(figure 1b)。

方法细节

整体框架

LMAD整合端到端驾驶流水线与视觉语言模型,由三部分构成:

  • 视觉语言模型:含视觉编码器(提取图像tokens)、分词器(编码文本tokens)、语言解码器(生成响应)。
  • PI编码器:处理多视图图像,建模场景关系。
  • 并行LoRA模块:整合任务专用知识,适配不同驾驶任务(figure 2)。

2. 并行LoRA(P-LoRA)微调

为使VLMs适配多样化驾驶任务,P-LoRA在FFN块中替换传统LoRA为多个并行分支,每个分支对应感知、预测或规划任务(figure 3b):

  • 注意力块中的LoRA保持共享,保留通用驾驶知识。
  • 推理时结合Chain-of-Thought(CoT)技术,按端到端方法逐步输出结果。

与端到端驾驶系统的集成

训练策略

实验验证

实验设置

  • 数据集:采用DriveLM(377,956个QA对,涵盖感知到规划的渐进式任务)和nuScenes-QA(约460k个QA对,聚焦感知任务)。
  • 基线模型:LLaMA-Adapter、LLaVA-1.5、InternVL2,端到端框架采用VAD-base。
  • 训练细节:使用AdamW优化器(权重衰减0.01),余弦学习率调度(预热比0.03),8张A6000 GPU上以 batch size 16训练2个epoch。

主要结果

  1. DriveLM基准测试:LMAD显著提升所有基线VLMs的性能。例如,LLaMA-Adapter的准确率提升3.44%,GPT得分提升3.89%;即使是强基线InternVL2,整体指标仍有改善(table 1)。与现有方法相比,LMAD在BLEU4、ROUGE L等指标上表现最优(table 2)。

消融研究

  • 组件有效性:PI编码器、P-LoRA和端到端tokens的协同作用显著提升性能,全组件配置(ID5)的最终得分最高(57.17)(table 4)。
  • P-LoRA设计:任务导向的P-LoRA(感知、预测、规划分支)在各项指标上表现均衡,优于问题导向和分层模式(table 5)。

端到端tokens作用:感知tokens对行为解释最关键,加入预测和规划tokens后,准确性和交互关系建模进一步提升(table 6)。

定性分析

  • 感知任务:借助规划结果中的位置先验,LMAD能准确识别多数关键目标,但对“禁止进入”等不明显标识仍有困难。
  • 预测任务:聚焦对ego行为影响大的目标(如交通标志),即使预测目标与真值不同,仍能合理影响后续规划。
  • 规划任务:结合历史上下文和端到端结果,输出符合当前环境的驾驶行为(figure 4)。

参考

[1]LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论