2025-09-19 纯视觉最新SOTA！AdaThinkDrive：更灵活的自动驾驶VLA思维链（清华&小米）

原文链接：https://mp.weixin.qq.com/s/vD4Ipy5VIsKJl2OCzeuVqw

为解决这一问题，清华&小米等团队提出AdaThinkDrive：一种受“快慢思考”理论启发、具备双模式推理机制的新型VLA框架。具体而言，该框架首先在大规模自动驾驶（Autonomous Driving, AD）场景上进行预训练，通过问答和轨迹数据集获取世界知识与驾驶常识；在SFT阶段，引入包含“快速回答（无CoT）”和“慢速思考（有CoT）”的双模式数据集，使模型能够区分需要推理的场景；此外，本文还提出“自适应思考奖励策略”，并结合GRPO通过比较不同推理模式下的轨迹质量，对模型选择性应用CoT的行为进行奖励。在Navsim基准测试集上的大量实验表明，AdaThinkDrive的预测驾驶模型评分（Predictive Driver Model Score, PDMS）达到90.3，比最佳纯视觉基线模型高出1.7分；消融实验进一步显示，该模型性能优于“永不思考”和“始终思考”两种基线模型，PDMS分别提升2.0分和1.4分，且推理时间较“始终思考”基线模型减少14%，证明其能通过自适应推理实现准确率与效率的平衡。

论文标题：AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving
论文链接：https://arxiv.org/abs/2509.13769

一、引言

近年来，自动驾驶系统正从传统的模块化流水线逐步转向端到端架构。尽管模块化方法具有工程灵活性，但存在组件间信息损失的问题，导致在复杂和长尾场景中出现累积误差，泛化能力受限。端到端方法通过在统一模型中联合优化感知、预测与规划，在一定程度上缓解了这一问题，但其对有限有监督数据的依赖仍限制了模型的鲁棒性。为解决该问题，近期研究开始探索视觉-语言模型（Vision-Language Models, VLMs），通过大规模驾驶数据集预训练提升模型的场景理解能力。

当前基于VLM的自动驾驶方法主要分为两类：一类是元动作方法，专注于生成高层指导信息；另一类是基于规划的方法，通过语言建模直接预测轨迹。后者中，思维链（CoT）技术的应用日益广泛，其能生成结构化输出，同时提升模型的可解释性与轨迹质量。然而CoT在自动驾驶VLA中的应用仍处于起步阶段。

为探索CoT的应用潜力，本文在不同场景复杂度下对VLA模型的推理性能展开对比研究。具体而言，我们将驾驶场景划分为三个复杂度等级（如图1a所示）。实验发现，对于InternVL3-8B和2B两种模型，在简单场景（1级）中，“非思考模型”（Non-Think）性能更优；而随着场景复杂度提升（2级和3级），“思考模型”（Think）则持续表现更佳。这一结果揭示了现有CoT方法的关键局限：在简单场景中易出现“过度推理”。尽管CoT推理在复杂场景中能带来显著收益，但在简单场景中会增加不必要的认知步骤，并提升不确定性。

上述发现表明，最优推理策略并非通用，而是取决于场景复杂度。因此，要提升自动驾驶的决策准确率与推理效率，让模型基于场景复杂度选择性地启用推理，就成为一项关键需求。

基于此，本文提出AdaThinkDrive——一种具备“快速回答/慢速思考”机制的视觉-语言-动作（VLA）端到端轨迹预测框架（如图1b所示）。首先，我们对Navsim基准测试集展开系统分析，评估现有方法在不同场景复杂度下的性能；在此基础上，设计三阶段自适应推理策略，使模型能在可学习奖励机制的引导下，自主决定何时推理、何时直接执行动作。在实现层面，我们首先在大规模驾驶数据上对模型进行预训练；随后，使用定制化的双模式Navsim规划数据集进行有监督微调（SFT），使模型既能生成“思考”（Think）输出，也能生成“非思考”（Non-Think）输出；最后，采用GRPO作为强化学习算法，并构建兼顾“轨迹准确率”“动作合理性”与“推理简洁性”的奖励结构。这种设计使AdaThinkDrive能在规划性能与计算效率之间达到最优平衡。

本文的主要贡献如下：

针对不同场景复杂度，对VLA模型中CoT的性能展开对比研究。通过在Navsim基准测试集上评估“思考”与“非思考”两种范式，发现现有CoT方法在简单场景中存在过度推理的关键局限，进而凸显自适应推理策略的必要性；
提出AdaThinkDrive端到端VLA框架，其“快速回答/慢速思考”机制能基于场景复杂度，在“直接预测”与“显式推理”之间自适应切换；此外，基于GRPO设计“自适应思考奖励策略”，指导模型自主决定何时推理、何时直接执行动作；
在Navsim基准测试集上，AdaThinkDrive的PDMS达到90.3，比最佳纯视觉基线模型高出1.7分；同时，该模型展现出优秀的自适应推理能力：在96%的复杂场景中选择性启用CoT，在84%的简单场景中默认采用直接轨迹预测；此外，与“始终思考”基线模型相比，其推理时间减少14%，充分证明该框架能有效平衡高性能与计算效率。

二、相关工作回顾

自动驾驶中的视觉-语言-动作模型（VLA）

近年来，视觉-语言模型（VLMs）在自动驾驶领域受到越来越多的关注，其通过融合视觉与文本输入，实现感知、规划与决策的一体化。目前该领域的方法大致可分为两类范式：第一类聚焦场景理解与高层推理，例如Senna模型通过解读传感器输入生成元动作，为下游规划器提供指导，但对实际驾驶性能的提升仍有限；第二类范式则从原始输入中直接预测驾驶轨迹。为提升模型的可解释性与准确率，近期方法逐渐引入中间推理过程（思维链，CoT），以揭示内部决策机制。例如EMMA、ReasonPlan和Sce2DriveX等研究表明，领域专用推理能显著改进轨迹预测效果。然而，本文分析发现，CoT的优势主要体现在复杂场景中，在简单场景中不仅难以带来收益，甚至可能产生负面影响。

高效推理模型

随着长思维链（Long CoT）在大语言模型（如DeepSeek）中日益普及，冗长的推理过程导致计算成本大幅增加。AdaptThink通过对比实验提出解决方案：对于简单任务，直接输出答案的准确率更高；而对于复杂任务，推理过程能提升性能，从而在效率与准确率间取得平衡。当前主流的自适应CoT触发方法多基于强化学习，核心在于token级控制与奖励设计，主要可分为三类：（1）简洁推理，通过奖励塑造或严格长度约束实现推理过程的简洁化；（2）动态早期终止，允许模型自适应终止推理；（3）按需推理，使模型能根据任务复杂度自主决定是否启动推理。

在自动驾驶场景中，“何时慢速思考、何时快速响应”的决策尤为关键：在高速公路巡航等简单场景中，无需复杂推理即可实现准确预测；而在路口或拥堵环境等复杂场景中，模型必须仔细分析场景、识别关键智能体，才能生成合理轨迹。本文旨在让模型高效地在必要时启动慢速思考，并在不同推理模式间自适应切换。

三、AdaThinkDrive算法详解

本节详细阐述所提出的AdaThinkDrive框架设计，主要包括三部分内容：（1）数据准备（含预训练数据与混合SFT数据）；（2）两阶段监督微调模块（为模型提供有效初始化）；（3）基于强化学习的复杂度感知自适应思考（提升模型效率与准确率）。整体框架如图2所示。

问题建模

数据准备

为使模型具备基础驾驶知识，并理解何时应用CoT推理更有利，我们首先进行如下数据准备工作。

预训练数据

为将通用VLMs适配到自动驾驶场景，我们整合了多个开源驾驶问答数据集，包括DriveLM、LingoQA、ImpromptuVLA、NuScenes-QA、NuInstruct和OminiDrive。此外，在SFT阶段，我们遵循CoT范式为Navsim构建了多轮问答推理数据集，涵盖道路边界估计、关键目标识别、自车动作预测及相关场景理解子任务。

混合SFT数据

场景分类

两阶段监督微调

基于强化学习的自适应思考

PDMS奖励

格式奖励

端点奖励

自适应思考奖励

强化学习过程中的总奖励由上述四个定制化奖励组件加权整合得到。

通过强化学习，策略模型可形成自适应推理策略，能根据不同复杂度的场景动态调整推理模式。

实验结果分析

数据集与评估指标

数据集

本文在NAVSIM数据集上开展全面的实验与评估——该数据集是基于OpenScene平台构建的、以规划为核心的自动驾驶数据集。除了从NAVSIM中采集的推理数据外，本文还对多个开源数据集（如DriveLM、ImpromptuVLA、LingoQA）进行格式重构，将其视觉问答（VQA）样本调整为更适配CoT推理的形式，以进一步丰富训练数据。

评估指标

NAVSIM基准测试提供了非反应式仿真环境，并采用预测驾驶模型评分（PDMS） 作为闭环规划指标。该指标整合了5个子指标，从多维度评估自动驾驶性能：

无责任碰撞（No At-Fault Collision, NC）：衡量无责任碰撞事件的发生率；
可行驶区域合规性（Drivable Area Compliance, DAC）：评估车辆对可行驶区域的遵守程度；
碰撞时间（Time-to-Collision, TTC）：反映车辆与障碍物的安全距离余量；
舒适性（Comfort, CF）：量化驾驶过程的平稳性；
自车进度（Ego Progress, EP）：评估车辆沿规划路线的行驶效率。

PDMS通过对上述子指标的综合计算，形成对自动驾驶闭环规划能力的整体评价，指标值越高表示性能越优。

实现细节

本文以InternVL3-8B作为基础模型，训练过程分为三个阶段，具体参数设置如下：

第一阶段（驾驶知识预训练）：在大规模驾驶知识数据集上进行有监督微调，训练轮次（epoch）为2，学习率1×10⁻⁵，批次大小（batch size）为1；
第二阶段（轨迹生成微调）：在含“思考”与“非思考”标注的Navsim规划数据集上微调，训练轮次为2，学习率4×10⁻⁵，批次大小为2；
第三阶段（强化学习优化）：采用强化学习训练，训练轮次为2，学习率2×10⁻⁶，批次大小为4，训练硬件为64块NVIDIA H20 GPU。

此外，自适应思考奖励中的置信度阈值（T）设置为0.9。

性能对比

AdaThinkDrive的整体性能

表I展示了AdaThinkDrive与当前主流方法在NAVSIM基准测试上的闭环指标对比。在纯视觉输入设置下，AdaThinkDrive的PDMS达到90.3，刷新了该设置下的最优性能（SOTA）。与此前纯视觉最佳方法Hydra-NeXt相比，AdaThinkDrive的PDMS提升了1.7分，充分证明其在模型建模能力与轨迹预测准确性上的显著优势。

尽管仅依赖视觉输入，AdaThinkDrive的性能仍与多模态方法GoalFlow相当，进一步验证了其自适应推理机制的有效性，以及在复杂驾驶场景中的强泛化能力。此外，在“N选优规划”（best-of-N planning）策略下，本文利用Navsim参考轨迹评估器从4个生成候选轨迹中筛选最优轨迹，最终PDMS达到93.0，创下该基准测试的最高得分。

自适应思考的定量评估

本文首先将AdaThinkDrive与以下两类模型进行对比（结果见表II）：

思考/非思考SFT模型（Think/Non-Think SFT）：仅训练为“始终生成CoT”或“永不生成CoT”的SFT模型；
思考/非思考RL模型（Think/Non-Think RL）：在对应思考/非思考SFT模型基础上微调得到的RL模型。

对比结果显示，AdaThinkDrive的整体性能最优，其PDMS比非思考RL模型高2.0分，比思考RL模型高1.4分。如表IV所示，在1级（简单）场景中，AdaThinkDrive的PDMS比非思考RL模型高2.2分；在3级（复杂）场景中，其PDMS比思考RL模型高2.0分。这一结果充分体现了AdaThinkDrive的核心优势：在简单场景中跳过冗余推理以提升效率，在复杂场景中利用结构化推理提高准确性，实现了两种策略的优势融合。

对不同场景复杂度的行为分析（图5）进一步验证了这一点：AdaThinkDrive在简单场景中更倾向于选择“非思考”模式，在复杂场景中则逐步增加“思考”模式的使用比例，展现出灵活的动态推理控制能力。此外，表III显示，与非思考RL模型相比，AdaThinkDrive的推理时间仅增加9%，但PDMS提升了2.0分；与思考RL模型相比，其推理时间减少14%，同时保持更高的PDMS。这些结果共同证明，自适应推理能在多样化驾驶场景中实现准确性与效率的平衡。

自适应思考的定性分析

图6展示了AdaThinkDrive与基线模型在简单场景和复杂场景中的定性对比结果。在简单场景中，思考RL模型将远处目标误判为关键目标，导致不必要的推理，最终生成的轨迹偏离可行驶区域；而AdaThinkDrive跳过冗余推理，直接输出平滑、准确的轨迹。在复杂场景中，非思考RL模型未能准确评估与前车的距离，生成的轨迹存在安全风险；而AdaThinkDrive能识别关键目标（如前车），并生成符合安全要求的轨迹。这些案例直观证明，AdaThinkDrive能根据场景复杂度自适应调整推理策略，同时提升驾驶安全性与决策质量。

消融实验

AdaThinkDrive的三阶段训练消融

表V展示了AdaThinkDrive三阶段训练流程（预训练、SFT、RL）的消融实验结果。仅使用NAVSIM轨迹数据进行SFT时，模型PDMS为86.2；加入大规模驾驶问答数据集预训练后，PDMS提升至87.5，增幅1.3分；进一步引入自适应思考强化学习与本文提出的自适应思考奖励后，PDMS达到90.3，增幅2.8分。这一结果表明，预训练能提升模型的驾驶知识储备，而自适应强化学习策略则是增强模型推理与决策能力的关键，二者共同保障了AdaThinkDrive的高性能。

奖励设计的有效性对比

表VI展示了不同奖励组合对PDMS的影响。仅使用基础PDMS奖励与格式奖励时，模型PDMS为88.1；加入端点奖励后，PDMS小幅提升至89.1；进一步加入自适应思考奖励后，PDMS达到90.3。这一结果表明，自适应思考奖励是提升规划效率与准确性的核心组件，能有效增强模型在多样化场景中的决策能力。

五、结论

本文认为，在简单场景中进行推理往往会增加计算开销，却无法提升决策质量。为解决这一问题，本文提出了AdaThinkDrive——一种视觉-语言-动作（VLA）框架，能让智能体自适应学习“何时需要思考”。本文的核心贡献是提出了以“自适应思考奖励”为指导的强化学习框架，该框架能使模型的推理行为与场景复杂度相匹配。

在NAVSIM基准测试上的实验结果表明，AdaThinkDrive实现了当前最优（SOTA）性能。这些发现充分证明，自适应思考对于自动驾驶系统实现准确且高效的决策至关重要。

2025-09-19 纯视觉最新SOTA！AdaThinkDrive：更灵活的自动驾驶VLA思维链（清华&小米）

发表回复取消回复

Categories

Archives

2025-09-19 纯视觉最新SOTA！AdaThinkDrive：更灵活的自动驾驶VLA思维链（清华&小米）

发表回复 取消回复

Categories

Archives

发表回复取消回复