2025-09-04 自驾VLA新SOTA！阿里AutoDrive-R²：自反思思维链&物理奖励，突破VLA泛化瓶颈

原文链接：https://mp.weixin.qq.com/s/7y0-CMAkls16iumNK3mlXg

近期自动驾驶VLA通过融合多模态感知与决策能力，已经展现出下一代智能驾驶量产方案的潜力。然而，决策过程的可解释性、连贯性以及动作序列的合理性仍未得到充分研究。为解决这些问题，阿里巴巴和昆士兰大学的团队提出AutoDrive-R²——一种新型VLA框架，该框架通过思维链处理与强化学习，同时增强自动驾驶系统的推理与自反思能力。具体而言：

首先构建了一个用于监督微调SFT的全新CoT数据集，命名为nuScenesR²-6K；该数据集通过包含自反思验证的四步逻辑链，有效搭建了输入信息与输出轨迹之间的认知桥梁。
其次为在RL阶段最大化模型的推理与自反思能力，本文进一步在基于物理的奖励框架内采用GRPO算法；该奖励框架整合了空间对齐、车辆动力学与时间平滑性准则，以确保轨迹规划的可靠性与真实性。

在nuScenes和Waymo两个数据集上的大量评估结果表明，所提方法具备SOTA的性能与强大的泛化能力。

论文链接：https://arxiv.org/abs/2509.01944

引言

年来，自动驾驶技术取得了快速发展。这类系统通常以传感器数据为输入，以规划轨迹为输出。传统流水线方法大多采用“感知-建图-预测-规划”模块化的架构，该设计存在两个关键局限性：一是误差累积，二是各组件间缺乏联合优化，最终导致性能下降。与之相比，现代方法将这些复杂系统统一为单一的端到端范式，天然具备三大优势：系统简化、鲁棒性增强与误差累积减轻。

然而，这些端到端方法的核心聚焦于轨迹规划，缺乏复杂驾驶场景所需的情景推理能力。为解决这一局限，近期研究将视觉-语言模型（Vision-Language Models, VLMs）集成到自动驾驶系统中，借助VLM的预训练推理能力，提升复杂场景下的决策性能。与传统“从零开始训练感知-策略模块”的方法不同，基于VLM的方法通过在数百万图像-文本对上预训练，对预训练模型进行微调，使车辆能够理解动态交通场景并制定复杂的导航策略。尽管已取得良好效果，现有系统在持续生成准确规划输出方面仍存在不足。

在VLM的基础上，视觉-语言-动作（VLA）模型进一步将推理能力扩展到最终动作预测，使机器人与自动驾驶车辆能够从视觉输入和文本指令中生成精确动作。这一进展推动自动驾驶领域采用类似的动作生成机制，例如π0提出了“action tokenizers”，用于预测精确轨迹。

但当前自动驾驶领域的VLA方法仍面临两个阻碍实际部署的关键局限：

轨迹生成框架常产生物理不可行输出：现有通过VLM直接生成文本指令或路径点的方法，频繁出现物理不可行输出与模型坍缩问题。尽管有研究提出“元动作”或“潜在动作token”等中间表示以缓解这些问题，但此类设计违背了端到端优化原则，且大幅增加模型复杂度开销。
复杂场景下推理能力不足：多数方法采用简单推理策略，无法同时兼顾复杂道路状况与车辆运动学约束，导致预测轨迹严重偏离现实需求。

这些局限凸显了研发新型VLA框架的迫切性——该框架需平衡架构简洁性、强大的情境理解能力与严格的物理约束。

为克服上述挑战，本文提出AutoDrive-R²，一种新型VLA框架，通过两阶段训练方法同时提升推理质量与物理可行性。核心思路在于：有效的自动驾驶需要可系统验证与优化的结构化推理过程。具体而言，为解决复杂场景下情境推理不足的问题，本文首先构建了用于监督微调的思维链（CoT）数据集nuScenesR²-6K。nuScenesR²-6K是自动驾驶领域首个同时激发VLA模型推理与自反思能力的数据集；与以往自动驾驶数据集不同，该数据集不仅提供真值轨迹，还包含推理与自反思步骤，确保驾驶行为的正确性与因果合理性。

此外，为解决物理不可行轨迹生成的难题，本文进一步针对自动驾驶任务的组相对策略优化（GRPO），设计了基于物理的奖励框架。该框架通过明确纳入空间对齐、车辆动力学与时间平滑性约束，使强化学习能够适应不同驾驶场景与车辆动力学特性，同时保证轨迹的物理可行性与行驶舒适性。在nuScenes和Waymo数据集上的全面实验表明，AutoDrive-R²实现了最先进的性能。本文的主要贡献如下：

提出AutoDrive-R²——一种新型VLA框架，能够基于视觉信息与语言指令，实现带自反思步骤的语义推理与轨迹规划。
构建nuScenesR²-6K数据集：该创新性CoT数据集采用含自反思的四步逻辑链，助力模型在监督微调后建立基础感知能力。
提出基于GRPO的RL后续训练方法：该方法将基于物理的奖励作为约束，优化不同场景下的规划轨迹。

相关工作回顾

自动驾驶

近年来，自动驾驶技术已从传统的“感知-在线建图-预测-规划”模块化流水线，逐步向端到端基于学习的方法演进。UniAD首次将所有子任务集成到一个级联模型中，相比传统模块化方法实现了显著性能提升。部分方法通过提取BEV特征，并通过多阶段交互建模预测规划轨迹。

随着视觉-语言模型的兴起，研究人员越来越多地将大语言模型与VLMs集成到自动驾驶系统中，以提升整体系统性能。已有多种方法引入预训练LLM，生成驾驶动作及可解释的文本说明。此外，DriveVLM通过集成专用推理模块提升场景理解能力；DriveMM处理多视图视频与图像输入，以增强车辆控制的泛化性；DriveMLM则引入行为规划模块，生成带合理依据的最优驾驶决策。

此外，视觉-语言-动作（Vision-Language-Action, VLA）模型在机器人领域的近期成功，为自动驾驶提供了新的研究视角。DriveMoE基于具身AI框架π0构建，通过训练路由网络激活针对不同驾驶行为的专家模块，引入了动作专家混合（Action-MoE）机制。此外，OpenDriveVLA提出“智能体-环境-自车”交互模型，用于精确轨迹规划；AutoVLA则直接从视觉输入与语言提示中预测语义推理结果与轨迹规划方案。

通用视觉-语言模型

近年来，大型语言模型（LLMs）的成功推动研究人员将其扩展为视觉-语言模型（VLMs）——这类模型融合文本与视觉数据，实现更丰富的多模态表示。开创性工作CLIP（对比语言-图像预训练）通过图像编码器与文本编码器结合，采用零样本学习策略，预测图像-文本样本对的正确匹配关系。类似地，BLIP与BLIP-2通过图像-文本对比（image-text contrastive, ITC）损失实现视觉与语言表示的对齐，并借助图像-文本匹配（image-text matching, ITM）损失区分正负图像-文本对，从而增强基于文本上下文的视觉表示能力。

受这些方法启发，许多VLMs（如LLaVA与Qwen2.5-VL）通过将大型语言模型作为文本编码器（如LLaMA），进一步提升了预训练视觉编码器的鲁棒性与表示能力。OmniGen2是另一类典型VLMs，其为文本与图像模态设计了两条独立的解码路径，采用非共享参数与解耦图像token化器。值得注意的是，DeepSeekV3引入了鲁棒的专家混合（Mixture-of-Experts, MoE）语言模型，采用无辅助损失策略实现负载均衡，在推理效率与成本效益上均有优势。

用于后续训练的强化学习

强化学习（Reinforcement Learning, RL）已被广泛应用于大型语言模型，研究人员发现，基于人类反馈的强化学习 – RLHF能显著提升模型的推理能力。在这些方法中，PPO最初用于模拟机器人运动与Atari游戏环境，随后被OpenAI用于微调GPT，在文本生成任务中实现了大幅性能提升。

与传统RLHF方法不同，DPO提出了一种新的奖励模型参数化方式，无需在微调过程中进行采样。奖励微调（Reward Fine-Tuning, RFT）是另一种基于RL的方法，在数学推理任务中表现出优异性能。此外，GRPO无需依赖外部工具包或投票机制，即可有效提升LLMs的推理能力。例如，DeepSeek-R1利用GRPO对模型进行微调，性能优于现有方法。组策略梯度（Group Policy Gradient, GPG）是一种极简RL方法，无需监督微调或复杂技巧即可提升大型语言模型的推理能力，且在多种任务中表现出强性能。受这些方法启发，近期有研究采用类似微调策略，以提升多模态模型的推理能力。

AutoDrive-R²算法详解

概述

含自反思的逻辑思维链（CoT）数据集

视觉-语言-动作（VLA）模型在自动驾驶领域的成功，关键在于其能否同时生成可解释的推理过程与物理可行的动作。然而，现有训练方法往往难以满足这一双重需求，导致模型要么缺乏可解释的决策过程，要么生成不切实际的轨迹。为探究这一问题，我们最初借鉴基于推理的强化学习（RL）最新进展，尝试直接通过强化学习优化轨迹规划，但初步实验表明，仅通过强化学习训练的模型，其轨迹规划性能显著低于先经过监督微调（SFT）再进行强化学习的模型。因此，我们提前构建了高质量冷启动数据集nuScenesR²-6K，以训练模型在轨迹规划方面的基础理解能力。

具体而言，我们从nuScenes训练集中手动标注了6000个“图像-轨迹”样本对，随后利用先进的Qwen2.5-VL-72B模型合成思维链（CoT）推理序列。如图2（a）所示，给定前视图图像、车辆历史状态（作为输入）与对应的真值轨迹（作为输出），我们预先定义了特定的CoT提示词，引导模型按照以下格式构建推理序列：“推理过程在此处((x₁, y₁), …, (xₙ, yₙ))”。

此外，我们观察到，现有许多方法依赖通用提示词实现“问题-答案”的推理，缺乏用于理性分析的结构化引导。这种策略在简单任务中虽有效果，但在面对复杂数学或逻辑问题时往往失效。为解决这一局限，我们的CoT提示词设计将轨迹规划系统地分解为三个相互关联的推理阶段：

图像驱动分析：建立基础场景理解（如障碍物与车道定位、交通标志检测），为后续推理奠定基础。
基于物理的计算：利用运动学方程（如角动量守恒）将抽象观测转化为可量化的预测结果。
上下文逻辑综合：整合领域特定知识（如交叉路口交通规则），确保预测结果符合真实世界的驾驶规范。

为进一步提升模型的鲁棒性与答案正确性，我们借鉴数学推理框架中“通过反向验证结论”的思路，明确引入“自反思”作为第四步。这一步骤使模型能够验证自身推理的连贯性，并修正潜在矛盾。因此，我们的提示词实现了四步逻辑链：
可视化 → 计算 → 逻辑 → 反思
该逻辑链可实现系统性且抗误差的推理，详细内容见补充材料。

最终，nuScenesR²-6K数据集用于Qwen2-VL-7B模型的监督微调，从而得到第一阶段模型。该预训练模型能够通过“结构化、分步式且包含自反思”的推理机制，有效实现轨迹规划。

GRPO

实验结果分析

实验设置

数据集

训练阶段，我们采用nuScenesR2-6K数据集。该数据集包含6000个“图像-轨迹”样本对，每个样本对均包含一张前视图图像和一段时长3秒、时间间隔为0.5秒的轨迹规划数据。为在强化学习（RL）前建立基础感知能力，我们基于这些样本对对Qwen2.5-VL-7B模型进行监督微调（SFT）。评估阶段，我们在nuScenes和Waymo两个数据集上测试所提方法，二者均提供了全面的自动驾驶数据：nuScenes数据集包含1000个城市驾驶场景，配备6个同步摄像头视角以支持规划任务；Waymo数据集包含4021个驾驶片段，涵盖8个摄像头视角和自车轨迹数据。

实验细节

我们在Qwen2.5-VL-3B和Qwen2.5-VL-7B两个模型上开展实验。两个训练阶段的学习率均设为5e-7，累计总批次大小（accumulated total batch size）为1。组相对策略优化（GRPO）的最大生成长度设为4096个token，每个输入样本生成6个候选响应。

评估指标

我们采用预测轨迹与真值轨迹在未来1秒、2秒、3秒时间跨度下的L2距离（单位：米），以及平均L2误差作为评估指标。所有模型均使用官方检查点（checkpoint），并在相同的评估代码下进行性能测试。

评估结果

nuScenes数据集上的结果

表1对比了所提方法与现有方法在nuScenes数据集上的预测误差。值得注意的是，我们的方法在所有时间跨度下均持续取得最佳性能，超越了EMMA+等现有领先方法——这些方法的训练依赖包含10.3万个场景的大规模内部数据集，而我们的训练数据仅包含第一阶段6000个精心构建的思维链（CoT）样本和第二阶段另外6000个样本，规模约为EMMA+数据集的11.65%。此外，尽管所提模型的参数量远小于Qwen2-VL-7B，但性能仍实现显著提升，将L2误差降低了86.9%。

Waymo数据集上的零样本性能

此外，表2展示了所提模型强大的零样本能力：相较于最新的EMMA+方法和Qwen2-VL-72B基准模型，我们的方法分别将L2误差降低了33.3%和90.7%。总体而言，所提模型在多个数据集上均能稳定生成精确的轨迹预测，展现出最先进（state-of-the-art, SOTA）的性能和泛化能力。

模型规模影响

在表1和表2中，我们在两阶段训练框架下对比了Qwen2.5-VL的3B和7B两个版本，以分析模型规模的影响。尽管7B模型性能更优，平均L2误差仅为0.19米，但3B版本相较于其基准模型仍实现了显著提升。这种性能差异表明，更大规模的模型本质上能捕捉更复杂的模式，而两阶段框架（SFT + GRPO）通过施加严格的轨迹约束和上下文逻辑综合，有效弥补了3B模型的能力局限。

可视化结果

图4展示了所提方法与其他方法在nuScenes数据集上的对比分析。可以发现，Qwen2.5-VL-7B在特定场景（如（b）和（d））中无法生成准确预测，EMMA+则存在显著的轨迹偏移；与之相反，所提方法在不同光照环境和复杂运动模式下，均能稳定生成可靠且物理可行的轨迹规划。

消融实验

训练阶段的必要性

受DeepSeek-R1-Zero启发，我们最初尝试仅通过强化学习训练模型。如表3所示，纯强化学习训练的模型（7B + RL）在平均L2误差上比监督微调模型（7B + SFT）低22.2%。我们认为这一性能差距源于模型无法建立结构化推理链——强化学习难以探索多步计算和上下文逻辑综合所需的高维推理空间，这一观察验证了两阶段训练的必要性。

监督微调（SFT）的作用

第一阶段中，基准模型Qwen2.5-VL-7B（7B）的平均L2误差为1.45米，而基于nuScenesR²-6K数据集训练的监督微调模型（7B + SFT）将该误差降至0.27米，性能提升81.4%，这充分证明监督微调在建立基础推理能力方面的有效性。此外，移除四步推理结构（w/o. Four.）会导致误差升至0.25米，相较于AutoDrive-R²下降31.5%；移除自反思（w/o. Self.）则使误差达到0.23米，相较于AutoDrive-R²下降21.1%。这一结果凸显了四步逻辑链与自反思机制在构建高质量思维链数据集过程中的相互依赖性。

强化学习（RL）中奖励组件的贡献

第二阶段，我们评估了AutoDrive-R²基于物理的奖励框架中各奖励组件的作用。具体而言，空间对齐对维持全局几何路径精度至关重要——移除空间对齐奖励（w/o. (r_{pos})）会使误差升至0.53米，远高于完整模型；转向角正则化通过惩罚急转向确保运动学可行性，移除该组件（w/o. (r_{ste})）会导致性能下降10.5%（误差0.21米）；速度一致性约束通过惩罚预测速度与真值速度的偏差确保贴合目标速度曲线，移除该约束（w/o. (r_{vel})）会使误差升至0.22米；时间平滑性惩罚通过抑制转向和速度在时间步间的突变来消除不稳定控制模式，移除该组件（w/o. (r_{tem})）会导致误差增加26.3%（误差0.24米）。将四个组件整合到基于物理的奖励框架后，AutoDrive-R²实现了0.19米的最优L2误差，证明了每个组件在满足轨迹规划的空间、运动学和时间准则方面的必要性。

输入样本候选响应数量的影响

我们还实验分析了第二阶段强化学习（GRPO）训练中“候选响应生成数量”的影响。如表4所示，将候选响应数量从2增加到6时，所有时间跨度下的L2误差均持续降低：当每个输入生成6个候选响应（w/. num = 6）时，模型实现最低平均L2误差（0.19米），性能优于生成4个（0.20米）和2个（0.23米）候选响应的情况。然而，当候选响应数量超过6个（w/. num = 8）时，性能提升逐渐减弱，这表明计算成本与性能提升之间存在权衡关系。因此，我们选择“每个输入生成6个候选响应”以平衡精度与效率。

更多可视化：

结论

本文提出AutoDrive-R²——一种面向自动驾驶领域“推理引导型轨迹规划”的新型视觉-语言-动作（VLA）框架。AutoDrive-R²通过两阶段训练框架，有效平衡了语义理解与真实世界约束：

监督微调（SFT）阶段：采用nuScenesR²-6K数据集，通过四步思维链（CoT）流程培养模型的结构化推理能力，并引入自反思进行验证；
强化学习（RL）阶段：利用组相对策略优化（GRPO）训练，结合基于物理的奖励框架优化轨迹规划。

实验验证了AutoDrive-R²的有效性：该方法在nuScenes和Waymo两个数据集上均实现最先进（SOTA）性能，并展现出强大的零样本泛化能力。未来研究将聚焦于多智能体协同和实时传感器融合集成，以进一步提升模型在复杂环境中的适应性。

2025-09-04 自驾VLA新SOTA！阿里AutoDrive-R²：自反思思维链&物理奖励，突破VLA泛化瓶颈

实验设置

数据集

实验细节

评估指标