原文链接:https://zhuanlan.zhihu.com/p/1909043320681915187
视觉-语言模型(Vision-Language Models, VLMs)在自动驾驶领域展现出巨大潜力,但它们在幻觉问题、推理效率以及缺乏现实世界验证方面的挣扎阻碍了其在精确感知和稳健的逐步推理中的应用。为了解决这些问题,本文提出了 AgentThink,这是一个开创性的统一框架,首次将链式思维(Chain-of-Thought, CoT)推理与动态的代理风格工具调用结合应用于自动驾驶任务。AgentThink 的核心创新包括:(i) 结构化数据生成:通过构建一个自动驾驶工具库,自动构造结构化的、自验证的推理数据,明确地将工具使用整合进多样化的驾驶场景;(ii) 两阶段训练流水线:采用监督微调(Supervised Fine-Tuning, SFT)结合GRPO,使VLM具备自主调用工具的能力;以及 (iii) 代理风格的工具使用评估:引入了一种新的多工具评估协议,以严格评估模型的工具调用和利用能力。在 DriveLMM-o1 基准测试中进行的实验表明,AgentThink 显著提升了整体推理得分53.91%,并增强了答案准确性达33.54%,同时显著提高了推理质量和一致性。此外,跨多个基准测试的消融研究和鲁棒零样本/少样本泛化实验进一步证明了该框架的强大能力。这些发现突显了开发值得信赖和工具感知的自动驾驶模型的前景。
关键词:视觉-语言模型(Vision-Language Models, VLMs)、链式思维(Chain-of-Thought, CoT)推理、工具调用、自动驾驶、强化学习(Reinforcement Learning, RL)

简介
近年来,基础模型的发展为自动驾驶开辟了新的机会,其中预训练的大语言模型(LLMs)和视觉-语言模型(VLMs)被越来越多地用于实现高层次的场景理解、常识推理和决策制定。这些模型旨在超越传统的感知流水线——后者依赖于手工设计的组件,如物体检测、运动预测和基于规则的规划——通过提供丰富的语义表示和更广泛的泛化能力,从而奠定在大规模网络知识基础上的理解。
许多近期的方法将自动驾驶任务重新定义为视觉问答(VQA)问题,并通过对基础 VLMs 进行监督微调(SFT),使用特定任务提示进行物体识别、风险预测或运动规划。然而,如图 2(a) 所示,这些模型通常将推理视为静态输入到输出的映射,忽略了现实世界决策中至关重要的不确定性、复杂性和可验证性。因此,它们往往表现出较差的泛化能力、产生幻觉输出以及有限的可解释性。
为了提高鲁棒性和透明度,最近的研究探索了将链式思维(CoT)推理引入 VLMs,如图 2(b) 所示。一些方法采用刚性的 CoT 模板 ,以牺牲灵活性为代价促进结构化的逻辑推理;而另一些则采用开放式的推理格式,但可能过度拟合标记模式,导致浅层或冗余的推理。此外,大多数现有方法仅依赖从人工标注轨迹中进行模仿学习,缺乏检测知识不确定性和调用工具进行中间验证的能力。

这些挑战引出了一个关键问题:VLM 如何真正作为决策代理运作——意识到自己的知识边界、擅长验证,并能够从工具引导的反馈中学习?灵感来自于经验丰富的驾驶员,当他们不确定时会查阅诸如后视镜或 GPS 等辅助工具来完善判断。同样,一个有能力的自主代理不仅需要显式推理,还必须认识到自身的局限性,并动态使用工具,例如物体检测器或运动预测器,来指导其推理和决策过程。
因此,我们提出了 AgentThink,这是一种统一的 VLM 框架,用于自动驾驶,它将推理建模为一种代理风格的过程——在这种过程中,模型学会利用工具生成增强型推理链,验证中间步骤,并优化结论。如图 2(c) 所示,与盲目地将输入映射到输出不同,AgentThink 在推理过程中动态决定何时以及如何使用工具,以支持或修改推理路径。为了实现这一行为,我们创建了一个数据-训练-评估流水线。首先,我们构建了一个结构化的增强型推理轨迹数据集。然后,我们引入了一个两阶段的训练流水线:(i) 使用 SFT 来启动推理能力,以及 (ii) GRPO ,这是一种基于强化学习(RL)的策略,通过结构化奖励来优化推理深度和工具使用行为。最后,我们提出了一种超越答案正确性的综合评估协议,以评估工具选择、整合质量和推理-工具对齐情况。

如图 1 所示,在先进的 DriveLMM-o1 基准测试中的实验表明,AgentThink 在答案准确性和推理得分方面都达到了新的最佳表现,超过了现有模型。我们的方法在培养动态、工具感知的推理方面的有效性进一步通过全面的消融研究和在多个基准测试中的强大泛化能力得到了证实。这些结果强烈表明,赋予视觉-语言代理学习到的、动态调用的工具使用能力对于创建更加稳健、可解释和通用的自动驾驶系统至关重要。
总的来说,我们的贡献如下:
- 提出了 AgentThink,这是第一个将动态代理风格的工具调用整合进自动驾驶任务的视觉-语言推理框架。
- 开发了一个可扩展的数据生成流水线,该流水线生成结构化、自验证的数据,结合了工具使用和推理链。
- 引入了一个两阶段的训练流水线,结合 SFT 和 GRPO,使模型能够学习何时以及如何调用工具以增强推理性能。
- 设计了新的评估指标,专门针对自动驾驶工具调用,捕捉工具选择、整合质量以及推理与工具的对齐情况。
相关工作回顾
自动驾驶中的语言模型
近年来,语言建模的进步为自动驾驶开辟了新的机会,特别是在实现可解释的推理、常识理解与决策制定方面。早期的研究通过将驾驶任务(如场景描述 、决策制定和风险预测)重新定义为文本提示,集成了诸如 GPT 系列等大语言模型(LLMs),从而实现了零样本或少样本推理。尽管这些方法展示了 LLMs 的推理潜力,但它们通常缺乏逐步的可解释性,并且在分布外场景中的泛化能力较差。
最近的工作通过提示策略、基于记忆的上下文构建或视觉输入增强了 LLMs 的功能。例如,DriveVLM引入了一种链式思维(CoT)方法,包括场景描述、分析和分层规划模块;而 DriveLM则专注于图结构的视觉问答。EMMA展示了多模态模型如何直接将原始相机输入映射到驾驶输出,包括轨迹和感知对象。尽管取得了这些进展,以 LLM 为中心和基于 VLM 的方法往往仍将推理视为静态的输入-输出映射,缺乏检测不确定性、执行中间验证或结合物理约束的能力。幻觉、过度依赖刚性模板以及缺乏领域特定的奖励反馈等问题依然存在。为了解决这些问题,我们的工作引入了一种基于强化学习(RL)的工具增强型推理框架,使自动驾驶能够进行动态且可验证的决策制定。
自动驾驶中的视觉问答
针对自动驾驶的视觉问答(VQA)已成为评估感知、预测和规划能力的基准范式。BDD-X、DriveBench、DriveMLLM、Nuscenes-QA和 DriveLMM-o1等基准提供了涵盖城市和高速公路环境中复杂推理场景的结构化问答任务。对于 VQA 任务,近期的方法如 Reason2Drive、Alphadrive、OmniDrive和 DriveCoT引入了 CoT 推理以增强模型的可解释性。
然而,许多方法采用刚性的推理模板或仅依赖模仿学习,使其容易过拟合和产生幻觉。这些方法往往忽略了动态推理过程,并未能使用外部工具验证中间步骤。相比之下,我们的框架在推理过程中结合了结构化数据生成、步骤级奖励和工具验证。通过 GRPO 进行强化学习(RL),我们优化了模型的推理轨迹,使其与正确性、效率和实际应用性对齐,为自动驾驶中的 VQA 开辟了新的方向。
方法详解
数据生成流水线
尽管已有研究探索了 VLMs 中的推理能力,但幻觉问题仍然存在。我们认为,可靠的自动驾驶推理(类似于人类决策)不仅需要内部知识,还需要在必要时调用外部工具的能力。为此,我们提出了一种增强型数据生成流水线。与现有仅关注推理步骤和最终答案的数据集不同,我们的流水线将明确的工具使用整合进推理过程。

工具库
我们开发了一个专门的工具库,灵感来源于 Agent-Driver,包含五个驾驶核心模块的功能:视觉信息、检测、预测、占用和地图,以及单视角视觉工具(开放词汇检测、深度估计、裁剪、缩放)。此外,还包括基础的单视角视觉工具,如开放词汇目标检测器和深度估计器。这些工具共同使模型能够提取全面的环境信息,以支持多样的感知和预测任务。
提示设计
初始的工具整合推理步骤和答案由 GPT-4o 自动生成,依据一个提示模板(如图 3 所示),该模板旨在引导生成增强型推理链,而不是直接输出答案。
具体而言,对于预训练的 VLM 模型 πθ、输入图像 V 和任务指令 L,在时间 t 的推理步骤 Rt 通过以下方式生成:

其中,Rt 表示第 t 个推理步骤,[R1, …, Rt−1] 表示轨迹中先前生成的步骤。完整的推理轨迹表示为 TR=(R1, …, RM),M 是最大推理步骤数。
每个推理步骤 Rt 包含五个关键元素:
- 选择的工具 (Tooli)
- 生成的子问题 (Subi)
- 不确定性标志 (UFi)
- 猜测的答案 (Ai)
- **下一个动作选择 (ACi)**,例如继续推理或结束。
如果内部知识足以回答 Subi,则输出 Ai 并将 UFi 设为 False;否则,UFi 设为 True,Ai 留空。
此过程重复 N 次,为每对 QA 生成结构化的推理轨迹。
数据评估
一个独立的 LLM 对每条数据进行事实准确性和逻辑一致性审核,剔除步骤不匹配或结论无法支持的样本。最终得到一个高质量语料库,将明确的工具使用与连贯、可验证的推理结合起来。
两阶段训练流水线
构建结构化数据集后,我们设计了一个两阶段训练流水线,逐步提升模型的推理能力和工具使用熟练度。
基于SFT的推理Warm-up
在第一阶段,我们在增强型 CoT 数据集上执行监督微调(SFT),以提升模型生成推理链和适当调用工具的能力。每个训练样本表示为 τ=(V, L, TR, A),其中 V 是视觉输入,L 是语言指令,TR 是逐步推理过程,A 是最终答案。
训练目标是最大化生成 TR 和 A 的似然:

其中 D 是训练数据集,Rt 表示第 t 个推理步骤或答案 token。
基于 RLFT 的推理增强
为了进一步优化模型超越模仿学习的表现,我们采用强化学习微调(RLFT),使用 GRPO(Group Relative Policy Optimization),它能够在不依赖学习的价值函数的情况下有效利用结构化奖励。
GRPO 概述:
GRPO 通过计算组内每个样本的相对优势来避免使用价值函数。给定一个问题 q 和 G 个响应 {oi}iG=1,从旧策略 πθold 中采样,GRPO 目标函数为:

其中分组剪切损失定义为:

重要性权重 wi 和归一化优势 Ai 为:

其中 ri 表示分配给输出 oi 的奖励,β 和 ϵ 是可调超参数。
奖励设计:
为了引导模型朝向准确、可解释且具备工具意识的推理方向发展,我们设计了一个结构化奖励函数,包含三个主要部分:

这种结构化奖励设计比通用相似度指标更具针对性和可解释性,使 GRPO 能够同时优化推理过程的质量和模型在需要时调用工具的能力。
推理与评估
在推理过程中,如图 4 所示,VLM 会动态访问预定义工具库中的工具,收集信息以支持逐步推理。这种动态调用机制提高了准确性,并反映了增强型训练数据的结构。然而,现有的基准测试忽略了对工具使用的评估。
为此,我们引入了三项新指标(如下表所示),用于评估模型在推理过程中的工具使用能力。

通过这些指标,我们能够更全面地评估模型在工具使用方面的表现,确保其在复杂驾驶场景中具备稳健性和可解释性。
实验结果分析
在本节中,我们进行了广泛的实验以验证 AgentThink 的有效性。我们的实验设计旨在回答以下核心问题:
- Q1. 动态增强推理能否在最终答案准确性和推理一致性方面优于现有的 VLM 基线模型?
- Q2. 我们结构化的奖励设计(最终答案、逐步推理、工具使用)是否对推理行为有显著贡献?
- Q3. AgentThink 在零样本和单一样本设置下的未见数据上泛化能力如何?
评价指标
我们采用了 DriveLMM-o1 的评价指标,具体利用整体推理得分来衡量 VLM 的推理能力,并采用多项选择质量(MCQ)来评估最终答案的准确性。此外,我们引入了新的指标来评估工具使用能力,如表 2 所述。
模型与实现
我们使用 Qwen2.5-VL-7B 作为基础模型,并冻结视觉编码器。通过 LoRA
进行监督微调(SFT),然后进行 GRPO 微调。我们将训练批次大小设置为每个设备 1。所有实验均使用 16× NVIDIA A800 GPU 进行。在 GRPO 调整阶段,我们对每个问题执行 2 次 rollout。其他设置详见附录 B。
主要实验结果
与开源 VLM 的比较:表 3 展示了在 DriveLMM-o1 基准测试中的主要结果,将 AgentThink 与一系列强大的开源 VLM 模型进行比较,包括 DriveLMM-o1、InternVL2.5、LLaVA-CoT和Qwen2.5-VL变体。

我们的完整模型 AgentThink 在所有类别中都达到了最先进的性能。它远远超过了基线 Qwen2.5-VL-7B,将整体推理得分从 51.77 提高到 79.68(+51.9%),并将最终答案准确性从 37.81% 提高到 71.35%(+33.5%)。相比于已经集成了一些推理能力的最强先前系统 DriveLMM-o1,AgentThink 在推理方面进一步提高了 +5.9%,在最终答案准确性方面提高了 +9.0%——这表明学习到的工具使用优于静态 CoT 或基于模仿的方法。
性能分解:除了推理和准确性之外,AgentThink 在驾驶特定指标(风险评估、交通规则遵守和场景理解)以及感知相关类别(相关性和缺失细节检测)方面也始终优于其他方法。这些收益反映了其能够利用动态工具调用和反馈,使其推理更有效地基于视觉上下文。
关键见解:与传统的 CoT 或基于提示的方法不同,AgentThink 学习何时以及为何调用外部工具,从而实现更具适应性和上下文感知的推理。这导致更好的决策质量、更少的幻觉以及在安全关键驾驶场景中的更高可信度。我们在附录 D 中提供了案例分析。

工具使用分析
如上所述,我们分析了不同的训练策略如何影响推理过程中的工具使用行为。表 5 报告了这三个维度的结果:(1) 工具使用恰当性,(2) 工具链连贯性,和 (3) 感知引导的对齐性。
强制通过提示调用工具但不包含推理结构的 DirectTool 基线显示出中等的链连贯性,但较低的恰当性和对齐性——这表明强制工具使用往往缺乏目的性。添加 SFT 提高了恰当性和对齐性,但由于缺乏对工具质量的反馈,进一步提升受到限制。结合结构化奖励的 GRPO 导致了显著的改进,教会模型选择性地调用工具并将输出连贯整合。我们的完整模型结合了 SFT 和 GRPO 以及完整的奖励,在所有指标中表现最佳。这表明监督和奖励塑造对于学习有效的、上下文感知的工具使用都是必不可少的。我们还评估了训练数据规模的影响,详见附录 E。
消融研究

在表 4 中,我们对 AgentThink 的奖励设计和训练策略进行了全面的消融研究。使用 SFT 或 GRPO 单独应用最终答案或逐步推理奖励,相较于基线模型可以带来适度的提升,分别提高任务准确性和推理一致性。然而,单独应用时它们的效果有限。
我们发现,在强化调整之前,结合 SFT 的 GRPO(不使用工具使用奖励)可以提供更好的性能,这表明预热推理是至关重要的。我们的完整 AgentThink 模型结合了所有三种奖励成分,达到了最优结果。它极大地提升了推理质量和答案准确性,从而强调了使用工具并在视觉上下文中扎根推理的重要性。
泛化能力评估
我们在一个新的 DriveMLLM 基准测试中评估了 AgentThink 的泛化能力,在零样本和单一样本设置下与一系列强大的基线模型进行比较,包括突出的 VLM 和任务特定变体(详细信息见表 6)。评价指标详见附录 F。
AgentThink 在零样本(26.52)和单一样本(47.24)得分上达到了最先进的性能,超过了 GPT-4o 和 LLaVA-72B。虽然像 DirectTool 这样的基线方法通过硬编码工具提示在感知任务结果上表现出色(例如,RHD 89.2 vs. 86.1,BBox 精度 92.4% vs. 91.7%),但它们在上下文刚性和碎片化推理-感知对齐方面存在问题。我们的模型通过有效协调显式推理与基于感知上下文的学习、自适应工具使用展示了优越的平衡。这突出了其学习到的工具使用机制相对于静态提示或单纯模型规模的优势,以实现稳健的泛化。
定性而言,如图 5 所示,AgentThink 成功地处理了各种基准测试(BDD-X, Navsim, DriveBench, DriveMLLM )上的挑战性零样本角落情况。在这些情况下,基础 Qwen 模型通常无法收集足够的信息或在推理过程中产生幻觉,导致错误的输出。相比之下,AgentThink 能够熟练地调用工具获取关键决策信息,从而正确回答这些问题。这进一步突出了其动态、增强工具推理在陌生环境中的实用价值。
结论
我们提出了 AgentThink,这是第一个统一框架,紧密融合了 CoT 推理与代理风格的工具调用,用于自动驾驶。通过可扩展的增强工具数据集和两阶段 SFT 与 GRPO 流水线,AgentThink 将 DriveLMM-o1 的推理得分从 51.77 提高到 79.68,将答案准确性从 37.81% 提高到 71.35%,比最强的先前模型高出 +5.9% 和 +9.0%。
除了性能提升之外,AgentThink 还通过使每个推理步骤基于工具输出,展示了更强的可解释性。结果验证了将显式推理与学习到的工具使用相结合是迈向更安全、更稳健的语言模型驱动任务的有希望路径。我们相信,这一框架为构建可信赖的基于 VLM 的代理奠定了基础,使其能够推广到复杂、动态的真实世界驾驶环境中。
限制
- 数据规模:我们的增强工具语料库总共包含 18k 条标注实例,限制了对长尾或罕见驾驶事件的暴露。需要一个更大且更多样化的数据集,以便模型内化更广泛的真实世界场景。
- 模型大小:我们依赖于 qwen2.5-VL-7B;7B 参数的足迹在嵌入式汽车硬件上带来了不小的内存和延迟开销。未来的工作应调查更轻量级的骨干(例如,~3B),在减轻车载资源约束的同时保留推理能力。
- 缺乏时间上下文:讨论的模型处理单帧、多视角图像作为输入。然而,由于缺乏顺序信息,它可能会误解依赖时间线索的场景,例如变化的交通灯。为了解决这个问题,可以考虑引入视频标记或采用递归记忆。
- 缺失 3D 模态:缺乏 LiDAR 或点云数据剥夺了模型精确的空间几何信息,增加了距离相关推理的不确定性。融合额外的模态预计将增强鲁棒性。

发表回复