2025-05-13 Agent智驾新范式?DriveAgent:基于LLM的自动驾驶多模态融合决策框架~

原文链接:https://mp.weixin.qq.com/s/O_PYEosd3aHFAgvXxS4rAg

论文题目: DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving

论文链接:https://www.arxiv.org/pdf/2505.02123

传统的自动驾驶方案在一些可解释性和上下文理解上,还是不如人类司机。即使是现在主流的端到端系统,也很难说整合了全部的异构传感器模态,比如:摄像头、激光雷达、IMU 和 GPS,尤其是在视觉模糊或者某一传感器失效的情况下。

然而,大型语言模型(LLM)和视觉语言模型(VLM)在跨领域推理方面有较强的能力,如何将 LLM 应用于驾驶场景中的多模态传感器融合,是一个有待探索的挑战。

最近已经有不少研究开始探索将 LLM 整合到自动驾驶任务中。例如,DriveLM 提出了围绕视觉输入的结构化推理,而 V2V-LLM 推进了车辆之间的多模态合作通信。此外,像 GenFollower 和 LMDrive 这样的框架则强调了指令跟随和类似人类行为的建模。同样,提示技术也通过改进推理和问题解决能力推动了 LLM 的发展。LaMPilot 和 KoMA 都利用了基于语言的提示智能体进行决策,而 TreeOT 和 ReActSR 则提出了通过提示 LLM 探索多种推理路径的方法,增强了推理和行动能力。然而,当前的方法主要集中在闭环规划或单一任务提示上,依赖于仅基于相对目标位置的简单视觉理解。因此,它们在视觉传感器不可靠的多样化驾驶场景中(例如摄像头未对准或在危险驾驶条件下)难以泛化。

鉴于上述限制,作者提出了 DriveAgent:一个模块化的、由 LLM 驱动的多智能体框架,用于在自动驾驶场景中对多模态传感器流进行推理。DriveAgent 通过分层的专用智能体整合了摄像头、激光雷达、GPS 和 IMU 数据,以协调的方式执行感知、推理和决策任务,如图1所示。作者的框架利用了 LLM 的结构化组合性和特定领域的传感器处理模块,以在典型和复杂的驾驶环境中提供清晰、可靠的响应。与以往仅关注端到端规划或视觉语言对齐的工作不同,DriveAgent 提供了一个通用架构,用于解释车辆行为、环境动态和跨多种传感器类型的因果事件。

本文的贡献包括:

  1. 多模态智能体系统:提出的多模态智能体系统能够在复杂的驾驶环境中实现连贯的端到端推理。
  2. 视觉语言模型微调策略:提出的微调 VLM 赋予了系统包括目标检测和交通解释在内的能力。
  3. 自我推理基准:基于数据分析、视觉推理和综合环境理解等任务评估自动驾驶性能。
  4. 三级驾驶数据集:收集的数据集涵盖了标准、典型和具有挑战性的自动驾驶场景,为全面的训练和评估提供了不同的挑战。

方法论

M1:描述性分析

M2:车辆推理

车辆推理模块包括三个智能体:一个处理视觉数据,一个处理激光雷达数据,以及一个分析智能体,用于综合两者以检测车辆异常。设计的推理流程如算法 1 所示。

M3:环境推理

环境推理模块由两个协调智能体组成:一个专注于检测和描述环境变化,另一个致力于分析这些变化的原因。这两个智能体共同提供对每个观察到的环境变化的驱动因素的全面理解,如算法 2 所示。

M4:响应生成

实验

数据集

由于缺乏用于评估智能体对驾驶环境理解的公开数据集,作者引入了一个从真实世界场景中的自动驾驶车辆收集的新数据集。如图 3 所示,车辆配备了多种传感器和导航系统。所有传感器数据都进行了时间同步,以确保多模态观测的一致性。

任务和评估指标

作者定义了三个主要任务:
(1) 目标和类别检测,
(2) 车辆推理(激光雷达和视觉理解),
(3) 环境推理。

每个任务都通过其对场景理解、决策制定和系统鲁棒性的贡献进行验。

对于目标识别任务,作者考虑了七个关键类别:四轮车辆(道路上的主要机动车参与者)、非四轮车辆(例如自行车和滑板车,由于覆盖范围较小,通常风险更高)、行人(易受伤害的道路使用者,通常优先考虑)、标志(官方交通指示和规定)、固定装置(永久结构、障碍物或建筑物)、植物(可能遮挡视线或标记边界的植被)以及监控设备(支持交通监督的电子显示屏或摄像头)。该任务在数据集 R2 和 R3 上进行训练,并在 R1 上进行评估,使用精确率、召回率和 F1 分数作为评估指标;其重要性在于确保对交通安全至关重要的对象进行准确分类。

车辆推理任务包括两个任务:一个激光雷达理解任务,通过将模型的输出与 R2 中的真实标签进行比较来评估,以及一个视觉推理任务,在 R2 和 R3 上进行评估,其中错位的相机视图作为干扰项。这些评估衡量了感知精度的真实提升,并防止了由于随机猜测而获得的虚假收益。

最后,环境推理任务测试系统区分静止物体和独立运动物体(如行人)的能力,通过在动态交通中更好地提高情境意识、避免碰撞和安全导航来验证改进。

推理指令

图 4 概述了结构化注释指南,定义了高质量响应的预期格式和内容。这些指南强调了三个关键方面:(1) 准确识别车辆和其他动态交通元素(例如自行车、公交车),(2) 突出显示相关的静态道路基础设施,如车道标记、交通标志和信号,(3) 确保描述客观、简洁且不含主观或无关内容。作者从每个输出中提取五个场景组件:树木、建筑物、车辆、行人和标志。这些类别因其与道路场景理解的相关性及其在标准自动驾驶数据集中的普遍性而被选中。

推理设置:推理实验遵循上述的多阶段推理方法,部署的 DriveAgent 完成四个顺序模块:描述性分析、车辆推理、环境推理和响应生成。对于每个阶段,DriveAgent 根据前一步的中间输入生成响应,每个输入案例总共进行四次逐步生成。评估在两个关键点进行:(1) 评估智能体车辆诊断推理的准确性,(2) 评估其环境和因果推理的准确性。

结果与分析

目标与类别检测性能

表 III 显示了在训练过程中采用结构化注释指南以实现更准确的目标识别时所获得的显著性能提升。DriveAgent 中的 VLM 模型在所有关键指标上都实现了显著提升——精确率达到了 89.96%,F1 分数达到了 71.62%,超越了表中其他模型。

图 5 显示,与人类标注者相比,DriveAgent 是唯一能够持续检测到监控设备的模型,而其他基线模型大多遗漏了这些设备,因为头顶的监控设备不如地面物体显眼。这一改进凸显了精确、一致的标注对于训练目标检测系统的重要性。通过消除歧义并确保边界框和类别标签的统一标准,新的标注使模型能够更有效地学习目标边界和区分。因此,DriveAgent 在定位和识别目标方面展现出更高的准确性,验证了高质量、结构化标注实践对于实现稳健目标识别性能的关键作用。

推理性能

车辆推理

对于激光雷达推理,Zero-Shot 方法在各条路线上的准确率介于 47.50% 到 65.05% 之间,为检测传感器错位建立了一个基线。单独使用 CoT 会导致显著的性能下降,表明基本的顺序推理难以应对细微的错误。添加 Self-Refine 显著提高了准确率,在 R2 上达到 72.63%,在 R2-right 上达到 63.89%。然而,DriveAgent 实现了强大且稳定的性能,尤其是在 R2-left 上(69.90%),显示出可靠的激光雷达错位检测能力。

对于视觉推理,检测错位的摄像头更具挑战性。Zero-Shot 和 CoT 在左、右视图上的准确率非常低。相比之下,DriveAgent 实现了显著的提升,包括在 R2 上达到 96.84% 的准确率,并且在左、右变体上也有明显改进(分别为 58.25% 和 71.30%),证实了针对视觉传感器推理进行模态特定调整的重要性。

环境推理

环境推理性能的评估基于智能体在比较两个选定时间戳时检测独立运动物体的能力。Zero-Shot 的性能较低,表明在没有额外推理线索的情况下,智能体难以区分时间上的物体差异。CoT 方法显著提高了性能,但 CoT + Self-Refine 策略的结果参差不齐,表明细化过程可能并不总是与 CoT 的固有顺序推理有效协同。值得注意的是,DriveAgent 模型超越了所有基线模型,获得了最高的准确率。这些结果强调了为整合时间和空间推理采用专门的、调整良好的方法的重要性,这对于在动态环境中准确识别独立运动物体至关重要。

结论

在本文中,作者提出了 DriveAgent,这是一个模块化的、由大型语言模型(LLM)引导的多智能体框架,用于自动驾驶中的结构化推理。通过将多模态传感器输入——包括摄像头、激光雷达、GPS 和 IMU——整合到一个由感知和推理智能体组成的层级结构中

在真实世界多传感器数据集上的实验表明,DriveAgent 不仅在准确性和稳定性方面超越了基线提示方法,还提供了显著的可解释性和模块化扩展性优势。DriveAgent 为通用化、可解释且传感器感知的自主性提供了一条前进的道路。该方法将语言建模的基础进展与实时感知和控制的需求相结合,为未来的驾驶系统奠定了基础,这些系统不仅具有反应性,还具备反思性意识。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论