2025-06-25 中科大&华为最新！Drive-R1：300万训练数据打造全新强化学习端到端VLA~

原文链接：https://zhuanlan.zhihu.com/p/1920985016395076564

用于自动驾驶（AD）的视觉大语言模型（VLMs）正在向端到端运动规划方向发展，而不仅仅是感知和认知任务。然而这个方向上发现了两个关键挑战：(1) VLMs倾向于通过严重依赖历史输入信息来学习捷径，在没有真正理解视觉输入的情况下实现看似强大的规划结果；以及(2)思维链（COT）推理过程总是与运动规划结果不一致，如何有效利用复杂的推理能力来增强规划仍然是一个未被充分探索的问题。于是本文从一个小规模的领域特定VLM开始，提出了Drive-R1，旨在为AD构建一个场景推理和运动规划之间的桥梁。Drive-R1首先在一个包含长COT和短COT数据的精心设计的数据集上进行监督微调。Drive-R1被鼓励从视觉输入逐步推理到最终的规划决策。随后在一个强化学习框架内对Drive-R1进行训练，该框架激励发现那些对于规划更有信息量的推理路径，并根据基于预测轨迹和元动作的奖励进行指导。在nuScenes和DriveLM-nuScenes基准上的实验评估表明，与现有的最先进的VLMs相比，Drive-R1实现了更优越的性能。我们相信，Drive-R1为在AD中架起推理和规划之间的桥梁提供了一个有希望的方向，并为未来的研究和应用提供了方法论上的见解。

论文链接：https://arxiv.org/pdf/2506.18234v1

引言

自动驾驶（AD）系统旨在使车辆能够以安全且智能的方式感知、理解和与其环境进行交互。在AD流程中的核心模块中，运动规划在确定未来动作方面起着核心作用，在现实驾驶场景中平衡安全性、效率和舒适性。给定对环境和其他代理的观察结果，轨迹预测直接影响后续的低级控制。

传统的运动规划方法通常依赖于人工设计的规则，这些规则在简化环境和代理行为假设下运行。虽然这些方法在结构化场景中提供了可解释性和鲁棒性，但它们通常难以处理不确定性、多代理交互和多样化的交通模式。最近基于深度学习的方法通过利用大规模驾驶数据集在轨迹预测方面取得了显著成功。这些方法包括编码器-解码器架构或时空变换模型，用于建模复杂的代理动态和社会交互。轨迹预测缺乏可解释性，并且在模糊上下文中的推理、适应开放世界条件和长尾事件方面仍面临限制。

VLMs的出现为增强AD系统带来了新的机遇。近期的方法已经在场景感知、描述和决策方面展示了有希望的结果，并在开放式视觉问答任务中进行了分析。此外一些方法将感知和认知任务扩展到运动规划任务，并输出了一些可解释的决策过程。

然而，目前基于VLM的规划系统中仍然存在一些基本限制未得到充分解决：1）在运动规划中使用视觉基础响应受到限制，甚至完全缺失。最近的基于VLM的方法通过从图像-文本输入预测轨迹实现了强大的开环指标，通常具有短链思维（COT）或没有COT推理。早期的GPT-driver表明，将所有感知和历史信息转换为文本输入，并仅使用一个纯大语言模型已经可以产生可靠的规划性能。为了进一步探讨这一点，我们训练了一个通用的VLM来预测轨迹而不进行COT监督。在测试时，我们完全消除了视觉输入，并发现该模型的表现与全多模态输入相当甚至更好。这一观察表明，用于运动规划的VLM过度依赖文本先验知识，特别是历史运动信息，这引发了对其视觉基础和泛化能力的担忧；2）COT推理痕迹始终与运动规划结果不一致。如何有效利用推理能力来提升规划性能仍然是一个未被充分探索的问题。最近的方法通过顺序问答到达最终的轨迹预测。虽然这些方法引入了可解释的中间步骤，但推理与规划之间的联系仍然较为松散。我们进一步观察到，即使在一个特定领域（DS）驾驶模型上训练运动规划数据集并进行COT推理，它也常常陷入推理陷阱。首先，从专门为复杂场景设计的COT数据中学到的推理模式可能会在简单案例中引入不必要的分析，导致过度思考并最终向规划输出注入噪声。其次，即使是手动标注的COT也无法保证与真实轨迹精确对齐，因为自然语言推理相比规划所需的细粒度数值表示往往更粗略和模糊。

为了解决上述挑战并在AD中弥合场景推理和轨迹级运动规划之间的差距，我们引入了专为视觉-语言推理和轨迹预测而定制的Drive-R1。我们从一个通用的VLM（InternVL2）开始，并通过后训练在一个包含300万个样本的大规模自收集数据集上将其适配到AD领域。这个DS模型具备强大的感知和场景理解能力，为下游规划任务奠定了基础。

为了实现推理意识规划，我们构建了一个结构化标注流水线，根据实际AD中的关键领域生成COT数据，包括交通知识理解、一般元素识别、交通图谱生成、目标属性理解以及自我决策和规划。由此产生的COT数据集包含约4000个样本，根据驾驶场景的复杂程度分为短COT和长COT：短COT对应于需要较少深思熟虑的相对简单的场景，而长COT则针对需要丰富的逐步推理的复杂、多代理或规则密集的场景。在监督学习阶段，Drive-R1在精心构建的数据集上进行训练，以学习从视觉观察逐步推理到最终规划输出，以可解释和结构化的方式。这一阶段对于鼓励基础推理和缓解过拟合历史轨迹模式或利用数据集捷径的趋势至关重要。

为了进一步对齐文本推理和数值轨迹规划，我们引入了强化学习（RL）。具体而言，Drive-R1采用了组相对策略优化（GRPO），其在一组候选解决方案上进行优化。相对优化机制特别适合运动规划，因为在相同的驾驶场景下可能存在多个合理的轨迹。通过跨多样化候选者的比较，GRPO鼓励模型发现能够跨越变化泛化的推理路径，而不是过拟合单个确定性轨迹，从而增强规划的鲁棒性和泛化能力。GRPO中的奖励设计整合了四个组件：轨迹准确性、元动作正确性、重复惩罚和输出格式符合性。其中，轨迹奖励捕捉了结果级别的规划质量，而元动作奖励反映了推理过程的质量。这两个奖励信号是互补的，进一步促进了Drive-R1框架内推理和规划之间的有效对齐。

我们在nuScenes数据集和DriveLM-nuScenes数据集上进行了广泛的实验。我们提出的Drive-R1在轨迹预测任务中实现了最先进的性能，证明了其在视觉基础运动规划中的有效性。此外，我们在DriveLM-nuScenes上进行了全面的消融研究，调查了各种组件的影响，包括不同阶段的GRPO、rollouts数量以及不同奖励函数的影响。本文的贡献可以总结如下：

确定了将VLM应用于运动规划的两个关键挑战：(i) 过度依赖历史文本输入导致捷径学习，削弱了视觉基础；(ii) 推理链与规划输出之间的不一致阻碍了可解释性和决策质量的有效整合。
提出了Drive-R1，这是一个专为AD定制的DS VLM，将视觉基础推理连接到轨迹规划。我们的方法包括在精心构建的包含长COT和短COT标注的数据集上的监督学习，随后使用GRPO进行RL，以进一步对齐推理质量和规划性能。
在nuScenes和DriveLM-nuScenes上进行了广泛的实验，其中Drive-R1在轨迹预测中实现了最先进的结果。

虽然我们的工作代表了将VLM集成到运动规划范式中的直接探索，但从Drive-R1获得的见解可能为未来在AD系统中实际部署VLM的努力提供有价值的指导。

Drive-R1算法详解

Drive-R1旨在通过监督微调（SFT）和强化学习（RL）的结合，在自动驾驶（AD）中弥合场景推理与轨迹规划之间的差距。我们首先介绍推理-规划链式思维（RP-CoT）数据集的构建，该数据集编码了与规划结果对齐的中间推理步骤。然后，我们详细描述了监督训练阶段，强调了模型为解决上述挑战必须获得的初始能力。最后，我们介绍了RL过程，该过程利用精心设计的奖励函数进一步将文本推理与数值轨迹预测对齐，从而提高可解释性和规划性能。

RP-CoT 数据标注

首先确定的运动规划五个关键领域，即交通知识理解、通用元素识别、交通图谱生成、目标属性理解和自车决策与规划，我们构建了RP-CoT数据集。RP-CoT旨在在AD中弥合高层次场景推理与低层次轨迹输出之间的差距。场景选自nuScenes。每个RP-CoT数据样本包括逐步的文本推理，反映了对驾驶场景的结构化理解，最终以精确的轨迹决策为基础。

如图2所示，标注流水线是半自动化的。我们首先从公开来源收集驾驶场景，这些场景附带场景描述和问答（QA）对。根据数百个QA对，ChatGPT首先生成真实事件，这些事件是对底层推理依据的结构化表示。接下来，基于真实事件和运动规划信息（历史轨迹、自车状态、元动作），ChatGPT通过五个领域生成RP-CoT数据。每个样本包括：解释推理步骤的<think></think>部分和指定未来轨迹的<trajectory></trajectory>部分（3秒6个轨迹点）。为了确保生成的RP CoT基于视觉现实，使用VLM GPT-4o通过将其与场景内容对齐来优化这些输出。最后，所有标注都由人工标注者进行检查，以确保一致性、正确性和计划有效性。

我们的标注流水线系统地将视觉-语言信息分解为与上述领域对齐的推理阶段。这种结构化格式使模型能够学习可解释的推理路径，逐步引导规划行动，为后续学习阶段奠定了坚实的基础。

监督微调阶段

如上所述，在运动规划中视觉根基响应的利用有限甚至缺失。如表1所示，直接训练一个通用VLM（Internvl2-4B）输出轨迹而不进行CoT监督可以产生令人惊讶的竞争性表现。然而，我们观察到一个反直觉的结果：当忽略视觉输入时，模型表现更好，表明其对历史文本上下文的依赖强于视觉感知。我们将这一现象归因于两个关键因素：(1) 模型对AD中的DS任务缺乏足够的熟悉度；(2) 模型对历史运动线索比对场景级视觉信息更敏感。为了解决这个问题，我们首先在一个大规模DS数据集上对InternVL2-4B模型进行全参数微调，该数据集包含300万个AD问答对，收集自公开数据集。第一阶段SFT后的DS模型显著缓解了对历史信息的过度依赖，并增强了其对AD场景的整体理解。然而，视觉驱动推理与视觉无关推理之间的差距仍然较小。此外，我们将先前构建的RP-CoT数据集纳入第二阶段SFT。通过监督的CoT监督，鼓励模型形成跨关键领域的视觉驱动推理路径，解决对文本历史信息的依赖，从而促进更稳健、感知意识更强的规划行为。

另一方面，CoT推理痕迹始终与运动规划结果不一致。表1中的实验结果显示，在SFT阶段应用长CoT监督相比直接监督最终轨迹输出会导致性能下降。有趣的是，其他领域也出现了类似观察结果。最近的研究报告称，对于涉及空间推理或数值敏感性的任务，使用CoT监督训练的模型往往表现不如使用直接答案监督训练的模型。我们假设观察到的性能下降可能源于两个主要因素：(1) 小规模模型的有限表示能力，限制了它们准确编码和利用复杂推理路径的能力；(2) 文本和数值输出之间对错误的容忍度不同。具体而言，CoT监督期间生成的推理文本可能包含语义不一致或幻觉，这可能是由于标注质量不佳或模型内在限制所致。虽然这些错误对文本推理本身的可解释性或合理性影响甚微，但它们会传播到数值预测阶段，例如轨迹预测，其中小偏差会被放大为显著的规划错误。

为了减轻无差别CoT监督的负面影响，我们在第二阶段SFT中引入了一种快慢思考策略。核心思想是根据每个驾驶场景的难度调整推理监督的复杂度。具体而言，我们将CoT监督分为短CoT和长CoT，取决于推理需求：短CoT对应需要最少深思熟虑的相对简单场景，而长CoT则针对需要丰富逐步推理的复杂、多代理或规则密集场景。我们首先训练一个模型直接生成轨迹输出而不进行CoT监督。这个特定模型随后用于评估每个场景的推理复杂度，作为场景难度的代理。规划指标较低的场景分配短CoT监督，而规划指标较高的场景配对长CoT标注。如表1所示，使用这种自适应快慢思考策略微调的模型实现了最佳整体性能，验证了其在平衡长CoT和短CoT方面的有效性。

强化学习阶段

DeepSeek-R1证明了像GRPO这样的RL框架能有效激发大型语言模型的长CoT推理能力。然而，后续研究显示，RL微调模型产生的推理路径在基模型的输出分布中已经以高概率存在，即RL模型可解决的问题也可以通过充分采样由基模型解决。基于这些见解，我们采用GRPO并非作为解锁根本新能力的手段，而是作为一种后训练对齐机制，以提高效率并增强推理与规划的进一步对齐。

算法

具体而言，对于每个问题q，GRPO从旧策略πθold中采样一组候选输出{o1, o2, ··, oG}，然后通过最大化以下目标更新当前策略πθ：

训练

通过大量实验，我们观察到在运动规划背景下有效的RL高度依赖于模型与AD领域的先前对齐。当应用于未经充分领域适应的模型时，强化信号通常导致不稳定更新或有限的策略改进，表明解释结构化驾驶场景的能力是成功策略优化的前提。因此，我们在经过两阶段微调监督的模型上执行RL，如SFT阶段所介绍的。在此基础上，RL进一步放大了视觉驱动推理与运动规划之间的协同效应，带来了我们在实验中观察到的最显著性能提升。

实验结果分析

数据集与基线模型

在第一阶段的监督微调（SFT）中，领域特定数据来自多个自动驾驶（AD）数据集，共计300万个样本。这些问答对（QAs）按照五个关键领域构建，并包含单视角、多视角和序列图像输入。

在第二阶段的SFT中，RP-CoT数据集由中的标注构建而成，样本数量为4072个。在nuScenes上的6019个验证样本中，长CoT和短CoT的数量分别为24058和4072。在DriveLM-nuScenes上的799个验证样本中，长CoT和短CoT的数量均为2036。

在强化学习（RL）阶段，样本选自4072个RP-CoT数据集。

我们以端到端和视觉-语言规划基线模型作为对比基准。前者包括ST-P3、UniAD及其加入自车状态输入的改进版本。后者则包括DriveVLM、RDA-Driver、OmniDrive和EMMA。值得注意的是，先前的方法通常直接输出轨迹预测，要么不进行推理，要么仅使用短链式思维（CoT）监督。相比之下，Drive-R1能够以统一的方式同时输出推理链和轨迹结果，从而实现可解释且上下文敏感的规划。

实现细节与评估指标

SFT训练基于InternVL2的官方代码库进行。第一阶段SFT在32个V100节点上进行训练，批量大小为256；第二阶段SFT在16个V100节点上进行训练，批量大小为128。RL阶段使用ms-swift框架实现，在2个V100节点上进行训练，批量大小为16，rollout次数为6。上下文长度设置为4096。

在评估方面，我们采用L2距离和碰撞率作为主要指标，参考了ST-P3的标准。

结果分析

表2展示了Drive-R1与现有代表性基线模型的全面比较。

Drive-R1实现了最低的平均L2误差（0.31），略优于EMMA（0.32）和OmniDrive（0.33），同时也表现出最低的平均碰撞率（0.09）。相比之下，一些端到端方法虽然在L2指标上表现尚可，但其碰撞率相对较高。这表明尽管这些模型在数值上可能较好地拟合轨迹，但在规划的安全性方面仍存在不足。

在基于VLM的基线模型中，Drive-R1始终展现出更优的规划质量和安全性。特别是相较于RDA-Driver和OmniDrive，我们的模型在轨迹精度和碰撞风险方面均有明显提升，验证了推理对齐轨迹生成的有效性。

图4展示了一个不同模型的推理结果示例。从中可以看出，Drive-R1在复杂场景下的推理能力更强，能够更好地理解交通环境并做出合理的决策。

消融实验

我们在DriveLM-nuScenes上进行了广泛的消融实验，研究RP-CoT输入类型和RL配置的影响。

CoT长度在SFT阶段的影响

如表1所示，我们在第二阶段SFT中评估了长CoT和短CoT的影响。仅使用短CoT或长CoT训练的模型性能不如同时使用两者的情况，这表明在整个多样化的场景中应用单一的CoT策略是次优的。结合长短CoT可以更好地使模型适应多种AD情境，利用简洁和详尽的推理链。

RL对不同模型基础的有效性

表1还进一步评估了RL对不同模型变体的影响。经过第一阶段SFT训练的DS模型比基础模型更能从RL中受益。此外，在引入长短RP-CoT模式后，模型在轨迹偏差和碰撞率方面显著改善，这突显了在执行RL微调之前进行领域对齐的必要性。

奖励设计和Rollout数量的影响

如表3所示，我们评估了不同奖励组件和rollout次数对模型性能的影响。元动作奖励和重复惩罚的引入在碰撞率方面带来了持续的改进（例如，从0.14降至0.10），凸显了它们在引导更安全规划行为方面的有效性。然而，对于容量相对较小的模型，简单增加rollout次数并不总是带来稳定或一致的性能提升。例如，虽然当rollout次数从6增加到12再到24时，碰撞率分别下降至0.10、0.11和0.08，但我们观察到在24-rollout设置下，训练在一定步数后变得不稳定。值得注意的是，报告的24-rollout结果是在训练崩溃前提取的。

综上所述，通过精心设计的奖励函数和适当的rollout次数，我们可以有效提升模型的推理能力和规划质量，尤其是在安全性方面。

结论

本文提出了Drive-R1，它将结构化的链式思维推理与轨迹级运动规划相结合。为了解决现有基于视觉语言模型（VLM）的方法中存在的视觉基础不足以及推理痕迹与规划输出之间的不一致问题，我们构建了一个特定领域的VLM，并通过涵盖五个基本推理领域系统标注的CoT数据集对其进行增强。此外，我们引入了基于GRPO的强化学习（RL）阶段，以优化规划质量，使推理过程与轨迹结果对齐。在nuScenes和DriveLM-nuScenes基准上进行的全面实验验证了我们提出的方法的有效性。Drive-R1在轨迹预测任务中实现了最先进的性能，同时提供了可解释和结构化的推理能力。Drive-R1代表了在自动驾驶（AD）中连接高层认知推理和低层轨迹规划的早期探索。此外，我们在大规模内部数据集上使用Ascend 910硬件平台进行了广泛的实验，进一步验证了Drive-R1框架的通用性和鲁棒性。我们相信，从Drive-R1获得的见解可能为未来在AD系统中实际部署VLM提供宝贵的指导。

2025-06-25 中科大&华为最新！Drive-R1：300万训练数据打造全新强化学习端到端VLA~

引言

相关工作回顾

自动驾驶中的视觉-语言模型

强化学习

视觉-语言模型与强化学习的结合