2025-08-20 复旦最新LMAD：迈向可解释端到端VLM~

原文链接：https://mp.weixin.qq.com/s/VVzMb5j8lGotRZAcZN4w1A

概述

随着自动驾驶技术的快速发展，场景理解与行为可解释性成为核心研究方向。大型视觉语言模型（VLMs）在连接视觉与语言信息、解释驾驶行为方面展现出潜力，但现有方法多通过微调VLMs处理车载多视图图像和场景推理文本，存在整体场景识别不足、空间感知薄弱等问题，难以应对复杂驾驶场景。

为此，本文提出LMAD框架一种专为自动驾驶设计的视觉语言框架。其借鉴现代端到端驾驶范式，通过引入初步场景交互（Preliminary Interaction，PI）机制和任务专用专家适配器，增强VLMs与自动驾驶场景的对齐性，同时兼容现有VLMs并无缝集成规划导向的驾驶系统。在DriveLM和nuScenes-QA数据集上的实验表明，LMAD显著提升了现有VLMs在驾驶推理任务中的性能，树立了可解释自动驾驶的新标准。

核心挑战与创新

现有方法的局限性

现有基于VLMs的自动驾驶方法存在两点关键缺陷：

场景理解碎片化：依赖驾驶系统的中间结果或简单视觉表征，难以捕捉交通元素间的关系，无法形成整体场景认知（figure 1a）。
空间与运动感知薄弱：在定位和运动估计上表现不足，推理过程中易积累误差，导致驾驶任务性能不佳。

LMAD的创新设计

针对上述问题，LMAD的核心创新包括：

初步场景交互（PI）机制：建模交通参与者的初步关系，降低VLMs的学习复杂度。
任务专用专家结构：通过并行LoRA（P-LoRA）模块，使VLMs专注于感知、预测、规划等特定任务，获取任务专属知识。
端到端系统集成：融合端到端驾驶系统的先验知识，补充VLMs的空间和运动信息，增强推理能力（figure 1b）。

方法细节

整体框架

LMAD整合端到端驾驶流水线与视觉语言模型，由三部分构成：

视觉语言模型：含视觉编码器（提取图像tokens）、分词器（编码文本tokens）、语言解码器（生成响应）。
PI编码器：处理多视图图像，建模场景关系。
并行LoRA模块：整合任务专用知识，适配不同驾驶任务（figure 2）。

2. 并行LoRA（P-LoRA）微调

为使VLMs适配多样化驾驶任务，P-LoRA在FFN块中替换传统LoRA为多个并行分支，每个分支对应感知、预测或规划任务（figure 3b）：

注意力块中的LoRA保持共享，保留通用驾驶知识。
推理时结合Chain-of-Thought（CoT）技术，按端到端方法逐步输出结果。

与端到端驾驶系统的集成

训练策略

实验验证

实验设置

数据集：采用DriveLM（377,956个QA对，涵盖感知到规划的渐进式任务）和nuScenes-QA（约460k个QA对，聚焦感知任务）。
基线模型：LLaMA-Adapter、LLaVA-1.5、InternVL2，端到端框架采用VAD-base。
训练细节：使用AdamW优化器（权重衰减0.01），余弦学习率调度（预热比0.03），8张A6000 GPU上以 batch size 16训练2个epoch。

主要结果

DriveLM基准测试：LMAD显著提升所有基线VLMs的性能。例如，LLaMA-Adapter的准确率提升3.44%，GPT得分提升3.89%；即使是强基线InternVL2，整体指标仍有改善（table 1）。与现有方法相比，LMAD在BLEU4、ROUGE L等指标上表现最优（table 2）。

消融研究

组件有效性：PI编码器、P-LoRA和端到端tokens的协同作用显著提升性能，全组件配置（ID5）的最终得分最高（57.17）（table 4）。
P-LoRA设计：任务导向的P-LoRA（感知、预测、规划分支）在各项指标上表现均衡，优于问题导向和分层模式（table 5）。

端到端tokens作用：感知tokens对行为解释最关键，加入预测和规划tokens后，准确性和交互关系建模进一步提升（table 6）。

定性分析

感知任务：借助规划结果中的位置先验，LMAD能准确识别多数关键目标，但对“禁止进入”等不明显标识仍有困难。
预测任务：聚焦对ego行为影响大的目标（如交通标志），即使预测目标与真值不同，仍能合理影响后续规划。
规划任务：结合历史上下文和端到端结果，输出符合当前环境的驾驶行为（figure 4）。

参考

[1]LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving

2025-08-20 复旦最新LMAD：迈向可解释端到端VLM~

概述

核心挑战与创新

现有方法的局限性

方法细节

整体框架

2. 并行LoRA（P-LoRA）微调

实验验证

实验设置

主要结果

消融研究

发表回复取消回复

Categories

Archives

2025-08-20 复旦最新LMAD：迈向可解释端到端VLM~

概述

核心挑战与创新

现有方法的局限性

方法细节

整体框架

2. 并行LoRA（P-LoRA）微调

实验验证

实验设置

主要结果

消融研究

发表回复 取消回复

Categories

Archives

发表回复取消回复