原文链接:https://mp.weixin.qq.com/s/VVzMb5j8lGotRZAcZN4w1A
概述
随着自动驾驶技术的快速发展,场景理解与行为可解释性成为核心研究方向。大型视觉语言模型(VLMs)在连接视觉与语言信息、解释驾驶行为方面展现出潜力,但现有方法多通过微调VLMs处理车载多视图图像和场景推理文本,存在整体场景识别不足、空间感知薄弱等问题,难以应对复杂驾驶场景。
为此,本文提出LMAD框架一种专为自动驾驶设计的视觉语言框架。其借鉴现代端到端驾驶范式,通过引入初步场景交互(Preliminary Interaction,PI)机制和任务专用专家适配器,增强VLMs与自动驾驶场景的对齐性,同时兼容现有VLMs并无缝集成规划导向的驾驶系统。在DriveLM和nuScenes-QA数据集上的实验表明,LMAD显著提升了现有VLMs在驾驶推理任务中的性能,树立了可解释自动驾驶的新标准。
核心挑战与创新
现有方法的局限性
现有基于VLMs的自动驾驶方法存在两点关键缺陷:
- 场景理解碎片化:依赖驾驶系统的中间结果或简单视觉表征,难以捕捉交通元素间的关系,无法形成整体场景认知(figure 1a)。
- 空间与运动感知薄弱:在定位和运动估计上表现不足,推理过程中易积累误差,导致驾驶任务性能不佳。

LMAD的创新设计
针对上述问题,LMAD的核心创新包括:
- 初步场景交互(PI)机制:建模交通参与者的初步关系,降低VLMs的学习复杂度。
- 任务专用专家结构:通过并行LoRA(P-LoRA)模块,使VLMs专注于感知、预测、规划等特定任务,获取任务专属知识。
- 端到端系统集成:融合端到端驾驶系统的先验知识,补充VLMs的空间和运动信息,增强推理能力(figure 1b)。
方法细节
整体框架
LMAD整合端到端驾驶流水线与视觉语言模型,由三部分构成:
- 视觉语言模型:含视觉编码器(提取图像tokens)、分词器(编码文本tokens)、语言解码器(生成响应)。
- PI编码器:处理多视图图像,建模场景关系。
- 并行LoRA模块:整合任务专用知识,适配不同驾驶任务(figure 2)。


2. 并行LoRA(P-LoRA)微调
为使VLMs适配多样化驾驶任务,P-LoRA在FFN块中替换传统LoRA为多个并行分支,每个分支对应感知、预测或规划任务(figure 3b):
- 注意力块中的LoRA保持共享,保留通用驾驶知识。
- 推理时结合Chain-of-Thought(CoT)技术,按端到端方法逐步输出结果。
与端到端驾驶系统的集成

训练策略

实验验证
实验设置
- 数据集:采用DriveLM(377,956个QA对,涵盖感知到规划的渐进式任务)和nuScenes-QA(约460k个QA对,聚焦感知任务)。
- 基线模型:LLaMA-Adapter、LLaVA-1.5、InternVL2,端到端框架采用VAD-base。
- 训练细节:使用AdamW优化器(权重衰减0.01),余弦学习率调度(预热比0.03),8张A6000 GPU上以 batch size 16训练2个epoch。
主要结果
- DriveLM基准测试:LMAD显著提升所有基线VLMs的性能。例如,LLaMA-Adapter的准确率提升3.44%,GPT得分提升3.89%;即使是强基线InternVL2,整体指标仍有改善(table 1)。与现有方法相比,LMAD在BLEU4、ROUGE L等指标上表现最优(table 2)。



消融研究
- 组件有效性:PI编码器、P-LoRA和端到端tokens的协同作用显著提升性能,全组件配置(ID5)的最终得分最高(57.17)(table 4)。
- P-LoRA设计:任务导向的P-LoRA(感知、预测、规划分支)在各项指标上表现均衡,优于问题导向和分层模式(table 5)。

端到端tokens作用:感知tokens对行为解释最关键,加入预测和规划tokens后,准确性和交互关系建模进一步提升(table 6)。

定性分析
- 感知任务:借助规划结果中的位置先验,LMAD能准确识别多数关键目标,但对“禁止进入”等不明显标识仍有困难。
- 预测任务:聚焦对ego行为影响大的目标(如交通标志),即使预测目标与真值不同,仍能合理影响后续规划。
- 规划任务:结合历史上下文和端到端结果,输出符合当前环境的驾驶行为(figure 4)。

参考
[1]LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving

发表回复