2025-09-19 纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)

原文链接:https://mp.weixin.qq.com/s/vD4Ipy5VIsKJl2OCzeuVqw

为解决这一问题,清华&小米等团队提出AdaThinkDrive:一种受“快慢思考”理论启发、具备双模式推理机制的新型VLA框架。具体而言,该框架首先在大规模自动驾驶(Autonomous Driving, AD)场景上进行预训练,通过问答和轨迹数据集获取世界知识与驾驶常识;在SFT阶段,引入包含“快速回答(无CoT)”和“慢速思考(有CoT)”的双模式数据集,使模型能够区分需要推理的场景;此外,本文还提出“自适应思考奖励策略”,并结合GRPO通过比较不同推理模式下的轨迹质量,对模型选择性应用CoT的行为进行奖励。在Navsim基准测试集上的大量实验表明,AdaThinkDrive的预测驾驶模型评分(Predictive Driver Model Score, PDMS)达到90.3,比最佳纯视觉基线模型高出1.7分;消融实验进一步显示,该模型性能优于“永不思考”和“始终思考”两种基线模型,PDMS分别提升2.0分和1.4分,且推理时间较“始终思考”基线模型减少14%,证明其能通过自适应推理实现准确率与效率的平衡。

  • 论文标题:AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2509.13769

一、引言

近年来,自动驾驶系统正从传统的模块化流水线逐步转向端到端架构。尽管模块化方法具有工程灵活性,但存在组件间信息损失的问题,导致在复杂和长尾场景中出现累积误差,泛化能力受限。端到端方法通过在统一模型中联合优化感知、预测与规划,在一定程度上缓解了这一问题,但其对有限有监督数据的依赖仍限制了模型的鲁棒性。为解决该问题,近期研究开始探索视觉-语言模型(Vision-Language Models, VLMs),通过大规模驾驶数据集预训练提升模型的场景理解能力。

当前基于VLM的自动驾驶方法主要分为两类:一类是元动作方法,专注于生成高层指导信息;另一类是基于规划的方法,通过语言建模直接预测轨迹。后者中,思维链(CoT)技术的应用日益广泛,其能生成结构化输出,同时提升模型的可解释性与轨迹质量。然而CoT在自动驾驶VLA中的应用仍处于起步阶段。

为探索CoT的应用潜力,本文在不同场景复杂度下对VLA模型的推理性能展开对比研究。具体而言,我们将驾驶场景划分为三个复杂度等级(如图1a所示)。实验发现,对于InternVL3-8B和2B两种模型,在简单场景(1级)中,“非思考模型”(Non-Think)性能更优;而随着场景复杂度提升(2级和3级),“思考模型”(Think)则持续表现更佳。这一结果揭示了现有CoT方法的关键局限:在简单场景中易出现“过度推理”。尽管CoT推理在复杂场景中能带来显著收益,但在简单场景中会增加不必要的认知步骤,并提升不确定性。

上述发现表明,最优推理策略并非通用,而是取决于场景复杂度。因此,要提升自动驾驶的决策准确率与推理效率,让模型基于场景复杂度选择性地启用推理,就成为一项关键需求。

基于此,本文提出AdaThinkDrive——一种具备“快速回答/慢速思考”机制的视觉-语言-动作(VLA)端到端轨迹预测框架(如图1b所示)。首先,我们对Navsim基准测试集展开系统分析,评估现有方法在不同场景复杂度下的性能;在此基础上,设计三阶段自适应推理策略,使模型能在可学习奖励机制的引导下,自主决定何时推理、何时直接执行动作。在实现层面,我们首先在大规模驾驶数据上对模型进行预训练;随后,使用定制化的双模式Navsim规划数据集进行有监督微调(SFT),使模型既能生成“思考”(Think)输出,也能生成“非思考”(Non-Think)输出;最后,采用GRPO作为强化学习算法,并构建兼顾“轨迹准确率”“动作合理性”与“推理简洁性”的奖励结构。这种设计使AdaThinkDrive能在规划性能与计算效率之间达到最优平衡。

本文的主要贡献如下:

  1. 针对不同场景复杂度,对VLA模型中CoT的性能展开对比研究。通过在Navsim基准测试集上评估“思考”与“非思考”两种范式,发现现有CoT方法在简单场景中存在过度推理的关键局限,进而凸显自适应推理策略的必要性;
  2. 提出AdaThinkDrive端到端VLA框架,其“快速回答/慢速思考”机制能基于场景复杂度,在“直接预测”与“显式推理”之间自适应切换;此外,基于GRPO设计“自适应思考奖励策略”,指导模型自主决定何时推理、何时直接执行动作;
  3. 在Navsim基准测试集上,AdaThinkDrive的PDMS达到90.3,比最佳纯视觉基线模型高出1.7分;同时,该模型展现出优秀的自适应推理能力:在96%的复杂场景中选择性启用CoT,在84%的简单场景中默认采用直接轨迹预测;此外,与“始终思考”基线模型相比,其推理时间减少14%,充分证明该框架能有效平衡高性能与计算效率。

二、相关工作回顾

自动驾驶中的视觉-语言-动作模型(VLA)

近年来,视觉-语言模型(VLMs)在自动驾驶领域受到越来越多的关注,其通过融合视觉与文本输入,实现感知、规划与决策的一体化。目前该领域的方法大致可分为两类范式:第一类聚焦场景理解与高层推理,例如Senna模型通过解读传感器输入生成元动作,为下游规划器提供指导,但对实际驾驶性能的提升仍有限;第二类范式则从原始输入中直接预测驾驶轨迹。为提升模型的可解释性与准确率,近期方法逐渐引入中间推理过程(思维链,CoT),以揭示内部决策机制。例如EMMA、ReasonPlan和Sce2DriveX等研究表明,领域专用推理能显著改进轨迹预测效果。然而,本文分析发现,CoT的优势主要体现在复杂场景中,在简单场景中不仅难以带来收益,甚至可能产生负面影响。

高效推理模型

随着长思维链(Long CoT)在大语言模型(如DeepSeek)中日益普及,冗长的推理过程导致计算成本大幅增加。AdaptThink通过对比实验提出解决方案:对于简单任务,直接输出答案的准确率更高;而对于复杂任务,推理过程能提升性能,从而在效率与准确率间取得平衡。当前主流的自适应CoT触发方法多基于强化学习,核心在于token级控制与奖励设计,主要可分为三类:(1)简洁推理,通过奖励塑造或严格长度约束实现推理过程的简洁化;(2)动态早期终止,允许模型自适应终止推理;(3)按需推理,使模型能根据任务复杂度自主决定是否启动推理。

在自动驾驶场景中,“何时慢速思考、何时快速响应”的决策尤为关键:在高速公路巡航等简单场景中,无需复杂推理即可实现准确预测;而在路口或拥堵环境等复杂场景中,模型必须仔细分析场景、识别关键智能体,才能生成合理轨迹。本文旨在让模型高效地在必要时启动慢速思考,并在不同推理模式间自适应切换。

三、AdaThinkDrive算法详解

本节详细阐述所提出的AdaThinkDrive框架设计,主要包括三部分内容:(1)数据准备(含预训练数据与混合SFT数据);(2)两阶段监督微调模块(为模型提供有效初始化);(3)基于强化学习的复杂度感知自适应思考(提升模型效率与准确率)。整体框架如图2所示。

问题建模

数据准备

为使模型具备基础驾驶知识,并理解何时应用CoT推理更有利,我们首先进行如下数据准备工作。

预训练数据

为将通用VLMs适配到自动驾驶场景,我们整合了多个开源驾驶问答数据集,包括DriveLM、LingoQA、ImpromptuVLA、NuScenes-QA、NuInstruct和OminiDrive。此外,在SFT阶段,我们遵循CoT范式为Navsim构建了多轮问答推理数据集,涵盖道路边界估计、关键目标识别、自车动作预测及相关场景理解子任务。

混合SFT数据

场景分类

两阶段监督微调

基于强化学习的自适应思考

PDMS奖励

格式奖励

端点奖励

自适应思考奖励

强化学习过程中的总奖励由上述四个定制化奖励组件加权整合得到。

通过强化学习,策略模型可形成自适应推理策略,能根据不同复杂度的场景动态调整推理模式。

实验结果分析

数据集与评估指标

数据集

本文在NAVSIM数据集上开展全面的实验与评估——该数据集是基于OpenScene平台构建的、以规划为核心的自动驾驶数据集。除了从NAVSIM中采集的推理数据外,本文还对多个开源数据集(如DriveLM、ImpromptuVLA、LingoQA)进行格式重构,将其视觉问答(VQA)样本调整为更适配CoT推理的形式,以进一步丰富训练数据。

评估指标

NAVSIM基准测试提供了非反应式仿真环境,并采用预测驾驶模型评分(PDMS) 作为闭环规划指标。该指标整合了5个子指标,从多维度评估自动驾驶性能:

  • 无责任碰撞(No At-Fault Collision, NC):衡量无责任碰撞事件的发生率;
  • 可行驶区域合规性(Drivable Area Compliance, DAC):评估车辆对可行驶区域的遵守程度;
  • 碰撞时间(Time-to-Collision, TTC):反映车辆与障碍物的安全距离余量;
  • 舒适性(Comfort, CF):量化驾驶过程的平稳性;
  • 自车进度(Ego Progress, EP):评估车辆沿规划路线的行驶效率。

PDMS通过对上述子指标的综合计算,形成对自动驾驶闭环规划能力的整体评价,指标值越高表示性能越优。

实现细节

本文以InternVL3-8B作为基础模型,训练过程分为三个阶段,具体参数设置如下:

  1. 第一阶段(驾驶知识预训练):在大规模驾驶知识数据集上进行有监督微调,训练轮次(epoch)为2,学习率1×10⁻⁵,批次大小(batch size)为1;
  2. 第二阶段(轨迹生成微调):在含“思考”与“非思考”标注的Navsim规划数据集上微调,训练轮次为2,学习率4×10⁻⁵,批次大小为2;
  3. 第三阶段(强化学习优化):采用强化学习训练,训练轮次为2,学习率2×10⁻⁶,批次大小为4,训练硬件为64块NVIDIA H20 GPU。

此外,自适应思考奖励中的置信度阈值(T)设置为0.9。

性能对比

AdaThinkDrive的整体性能

表I展示了AdaThinkDrive与当前主流方法在NAVSIM基准测试上的闭环指标对比。在纯视觉输入设置下,AdaThinkDrive的PDMS达到90.3,刷新了该设置下的最优性能(SOTA)。与此前纯视觉最佳方法Hydra-NeXt相比,AdaThinkDrive的PDMS提升了1.7分,充分证明其在模型建模能力与轨迹预测准确性上的显著优势。

尽管仅依赖视觉输入,AdaThinkDrive的性能仍与多模态方法GoalFlow相当,进一步验证了其自适应推理机制的有效性,以及在复杂驾驶场景中的强泛化能力。此外,在“N选优规划”(best-of-N planning)策略下,本文利用Navsim参考轨迹评估器从4个生成候选轨迹中筛选最优轨迹,最终PDMS达到93.0,创下该基准测试的最高得分。

自适应思考的定量评估

本文首先将AdaThinkDrive与以下两类模型进行对比(结果见表II):

  • 思考/非思考SFT模型(Think/Non-Think SFT):仅训练为“始终生成CoT”或“永不生成CoT”的SFT模型;
  • 思考/非思考RL模型(Think/Non-Think RL):在对应思考/非思考SFT模型基础上微调得到的RL模型。

对比结果显示,AdaThinkDrive的整体性能最优,其PDMS比非思考RL模型高2.0分,比思考RL模型高1.4分。如表IV所示,在1级(简单)场景中,AdaThinkDrive的PDMS比非思考RL模型高2.2分;在3级(复杂)场景中,其PDMS比思考RL模型高2.0分。这一结果充分体现了AdaThinkDrive的核心优势:在简单场景中跳过冗余推理以提升效率,在复杂场景中利用结构化推理提高准确性,实现了两种策略的优势融合。

对不同场景复杂度的行为分析(图5)进一步验证了这一点:AdaThinkDrive在简单场景中更倾向于选择“非思考”模式,在复杂场景中则逐步增加“思考”模式的使用比例,展现出灵活的动态推理控制能力。此外,表III显示,与非思考RL模型相比,AdaThinkDrive的推理时间仅增加9%,但PDMS提升了2.0分;与思考RL模型相比,其推理时间减少14%,同时保持更高的PDMS。这些结果共同证明,自适应推理能在多样化驾驶场景中实现准确性与效率的平衡。

自适应思考的定性分析

图6展示了AdaThinkDrive与基线模型在简单场景和复杂场景中的定性对比结果。在简单场景中,思考RL模型将远处目标误判为关键目标,导致不必要的推理,最终生成的轨迹偏离可行驶区域;而AdaThinkDrive跳过冗余推理,直接输出平滑、准确的轨迹。在复杂场景中,非思考RL模型未能准确评估与前车的距离,生成的轨迹存在安全风险;而AdaThinkDrive能识别关键目标(如前车),并生成符合安全要求的轨迹。这些案例直观证明,AdaThinkDrive能根据场景复杂度自适应调整推理策略,同时提升驾驶安全性与决策质量。

消融实验

AdaThinkDrive的三阶段训练消融

表V展示了AdaThinkDrive三阶段训练流程(预训练、SFT、RL)的消融实验结果。仅使用NAVSIM轨迹数据进行SFT时,模型PDMS为86.2;加入大规模驾驶问答数据集预训练后,PDMS提升至87.5,增幅1.3分;进一步引入自适应思考强化学习与本文提出的自适应思考奖励后,PDMS达到90.3,增幅2.8分。这一结果表明,预训练能提升模型的驾驶知识储备,而自适应强化学习策略则是增强模型推理与决策能力的关键,二者共同保障了AdaThinkDrive的高性能。

奖励设计的有效性对比

表VI展示了不同奖励组合对PDMS的影响。仅使用基础PDMS奖励与格式奖励时,模型PDMS为88.1;加入端点奖励后,PDMS小幅提升至89.1;进一步加入自适应思考奖励后,PDMS达到90.3。这一结果表明,自适应思考奖励是提升规划效率与准确性的核心组件,能有效增强模型在多样化场景中的决策能力。

五、结论

本文认为,在简单场景中进行推理往往会增加计算开销,却无法提升决策质量。为解决这一问题,本文提出了AdaThinkDrive——一种视觉-语言-动作(VLA)框架,能让智能体自适应学习“何时需要思考”。本文的核心贡献是提出了以“自适应思考奖励”为指导的强化学习框架,该框架能使模型的推理行为与场景复杂度相匹配。

在NAVSIM基准测试上的实验结果表明,AdaThinkDrive实现了当前最优(SOTA)性能。这些发现充分证明,自适应思考对于自动驾驶系统实现准确且高效的决策至关重要

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论