2025-06-19 UCLA最新！开闭环AutoVLA：强化学习微调&自适应推理如何打造高效端到端规划？

原文链接：https://zhuanlan.zhihu.com/p/1918817076363125456

最近，视觉-语言-动作(VLA)模型的发展展示了通过利用世界知识和推理能力进行端到端自动驾驶的前景。然而，当前的VLA模型在物理上不可行的动作输出、复杂的模型结构或不必要的长推理方面常常遇到困难。本文提出了一种新颖的VLA模型——AutoVLA，它在一个单一的自回归生成模型中统一了推理和动作生成，用于端到端的自动驾驶。AutoVLA能够直接从原始视觉输入和语言指令中进行语义推理和轨迹规划。我们将连续轨迹标记化为离散、可行的动作，使其可以直接集成到语言模型中。在训练过程中，我们采用监督微调来赋予模型两种思考模式：快速思考（仅轨迹）和慢速思考（增强链式推理）。为了进一步提高规划性能和效率，我们引入了一种基于组相对策略优化(GRPO)的强化微调方法，以减少在简单场景中的不必要推理。广泛的实验跨越现实世界和模拟数据集及基准测试，包括nuPlan、nuScenes、Waymo和CARLA，证明了AutoVLA在开环和闭环设置中的竞争性能。定性结果展示了AutoVLA在各种场景下的自适应推理和精确规划能力。

论文链接：https://arxiv.org/abs/2506.13757
项目链接：https://autovla.github.io/

引言

自动驾驶系统通常采用模块化范式，将驾驶任务分解为不同的子模块，如感知、预测和规划。虽然这种设计允许结构化的开发，但它可能导致错误积累和跨模块缺乏联合优化，从而导致次优性能。端到端自动驾驶由于其统一的模型架构而受到重视，该架构直接将原始传感器输入映射到最终的驾驶动作。这些模型是在人类驾驶数据上训练的，增强了可扩展性和类人行为。基于视觉的方法因其经济实惠和易于部署而引起了广泛关注。

然而传统的端到端方法主要关注模仿专家轨迹，缺乏对周围环境理解和推理的基本世界知识，特别是在长尾或复杂场景中。近期视觉-语言模型(VLMs)的发展引起了广泛关注，因为它们引入了能够利用广泛世界知识和强大推理能力的模型。这些模型在多样化的驾驶场景中展示出提升适应性和可扩展性的巨大潜力。在VLMs的基础上，视觉-语言-动作(VLA)模型扩展了这一能力到动作生成，使得具身代理，如机器人和自动驾驶车辆，能够根据视觉观察和语言指令产生可行的物理动作。

尽管取得了最新进展，现有的VLA模型在自动驾驶中面临两个关键限制，如图2所示。1) 动作生成的物理上不可行或复杂结构。一些模型使用VLMs直接生成文本动作或航路点，但这些输出可能在物理上不可行，并且容易出现模式崩溃。为了解决这个问题，最近的方法引入了中间元动作或潜在动作标记，然后由下游规划器或解码器处理以产生物理上可行的轨迹。然而中间表示要么破坏了端到端优化范式，要么增加了模型复杂性和训练开销。2) 在不同场景中推理的灵活性和效率不足。大多数现有模型采用固定的推理策略，缺乏在简单场景中直接输出动作和在复杂场景中进行链式推理之间的自适应切换能力。尽管DriveVLM引入了双过程范式，但它依赖于单独的模块（即一个用于慢推理的VLM和一个用于快速响应的传统端到端模型），这导致了复杂的架构，增加了训练开销并限制了可扩展性。

为克服这些限制，我们提出了AutoVLA，这是一种端到端的自动驾驶框架，直接将物理动作标记集成到预训练的VLM主干网络中，从而实现自回归规划策略的直接学习，如图1所示。我们的统一架构无缝整合了推理和动作生成，允许在直接轨迹生成和CoT推理之间进行自适应切换。在监督微调(SFT)中，我们利用轨迹数据和CoT推理数据使模型具备双过程能力（快思考和慢思考）。此外，我们提出了强化微调(RFT)，利用带有可验证规划奖励函数的组相对策略优化(GRPO)。这种方法实现了平衡规划准确性和效率的自适应推理。RFT方法不仅提高了规划性能，还通过最小化不必要的推理提高了运行时效率。我们使用真实世界的数据集，包括nuPlan、Waymo、nuScenes和模拟数据集如CARLA，对AutoVLA进行了广泛评估。实验结果表明，AutoVLA在各种端到端自动驾驶基准测试中，在开环和闭环测试下均表现出优越性能。实证结果验证了我们的RFT方法显著提高了规划性能，实现了自适应的快思考和慢思考能力，并通过减少冗余推理降低了运行时间。本文的主要贡献总结如下：

本文提出了AutoVLA，这是一个利用预训练VLM主干网络并结合物理动作标记的端到端自动驾驶框架，实现了从原始视觉观察和语言指令中直接学习策略和语义推理。
我们提出了一种基于RL的后训练方法，使用GRPO启用自适应推理，并进一步提升了模型在端到端驾驶任务上的性能。
我们展示了AutoVLA在多个自动驾驶基准测试中的卓越性能，包括开环和闭环测试。

相关工作回顾

端到端自动驾驶

近年来，端到端自动驾驶方法取得了显著进展。例如，UniAD和VAD在一个统一的Transformer架构中显式地整合了从感知到规划的多种驾驶任务，从而提升了规划性能。ParaDrive讨论了端到端驾驶架构中的必要组成部分。此外，GenAD和DiffusionDrive采用生成模型来保持轨迹连续性，并产生多模态的驾驶轨迹。然而，将世界知识集成到端到端驾驶系统中仍然面临语义推理方面的瓶颈以及在复杂环境中的适应能力有限的挑战。

自动驾驶中的VLA和VLM

语义推理与物理动作之间的差距仍然是VLA和VLM在端到端自动驾驶中的一个关键挑战。当前的研究大致沿着三个方向展开。第一种方法将驾驶直接表述为以语言为中心的问题，利用VLM进行场景理解，通过字幕生成或问答。第二种方法利用VLA或VLM生成高层元动作或驾驶决策，这些决策用于监督或引导传统规划器或端到端模型。尽管这些方法促进了集成，但它们阻止了完全的端到端优化。因此，第三种方法将VLM与动作生成直接集成到VLA模型中，使得可以直接预测潜在的动作标记或最终的驾驶轨迹。然而，这些方法中使用的简单轨迹解码器（例如MLP或GRU）可能会产生不切实际的轨迹，并且容易出现模式崩溃。为了解决这个问题，ORION将生成规划器纳入VLM架构中，增强了轨迹可行性，但也增加了模型复杂性和计算需求。在我们的工作中，我们将车辆运动的物理动作代码簿集成到预训练的VLM中，有效地弥合了语义推理和物理动作空间之间的差距。

强化微调

RFT在增强LLM的性能和适应性方面显示出了相当大的潜力，这在DeepSeek-R1中得到了证明。在自动驾驶领域，Gen-Drive和TrajHF采用了RFT，使轨迹生成模型与安全约束和人类驾驶偏好对齐。RAD结合了3D高斯点阵生成场景并进行了闭环RL训练。然而，RFT在基于端到端VLM/VLA的自动驾驶中的应用仍处于初级阶段。虽然以前的方法，如AlphaDrive，使用GRPO而不是直接偏好优化(DPO)来提升规划性能并确保训练效率和稳定性，但它们仍然局限于仅涉及高层元动作的简化设置。在这项工作中，我们推进了这一方向，将RFT应用于端到端VLA框架，在场景推理和低层规划中进行优化，并采用GRPO加速收敛并增强训练稳定性。

AutoVLA算法详解

所提出的AutoVLA框架包含两个主要组件，如图1所示。1) VLM骨干网络：它能够处理视觉和文本输入，并生成相应的标记（推理和动作），采用统一的自回归Transformer解码器。2) 物理动作标记生成：我们将语言模型解码器扩展以输出物理动作标记，这些标记直接对应于车辆运动。这些标记设计为符合物理约束，并可以可靠地转换为物理上可行的规划轨迹。

AutoVLA的训练分为两个阶段，如图3所示。1) 监督微调使用真实轨迹数据并从大规模VLM中提取高质量的推理数据；2) 强化微调使用特定任务的奖励函数来优化规划性能，同时通过最小化不必要的推理来提高运行效率。我们模型和训练过程的详细信息如下。

框架

模型输入

AutoVLA接收来自车载摄像头的多视角、多帧相机数据C，高级导航指令I以及自车状态S作为输入，并进行场景推理和轨迹规划。具体来说，我们使用安装在车辆前部、前左和前右的三个RGB摄像头。每个相机流ci=[cti−3, cti−2, cti−1, cti]以2 Hz的频率捕获四个连续帧，包括当前帧和前三帧，提供场景动态的时间信息。此外，模型使用高级导航指令I（例如，“左转”和“直行”）来明确指定预期方向。自车状态S包括当前速度、加速度和历史动作。

基础VLM模型

我们采用Qwen2.5-VL-3B作为AutoVLA的视觉-语言骨干网络。Qwen2.5-VL是一系列强大的多模态大语言模型，具有强大的视觉理解能力，而且Qwen2.5-VL模型的开源性质有利于特定任务的微调。3B变体在效率和性能之间取得了良好的平衡，适合部署在车载设备上。

动作标记化

为了在语言模型中实现轨迹规划，我们将连续车辆轨迹P ∈ Rτ×d离散化为一系列物理动作标记a=[a1,…, aT]，其中at ∈ A，T是标记化预测轨迹的长度，每个标记由短期空间位置和航向运动(∆x, ∆y, ∆θ)表示。这将规划任务转化为下一个标记预测问题，可以在语言模型内进行。我们使用K-disk聚类方法构建动作代码簿A={a1, a2,…, aK}，该代码簿涵盖了大多数车辆运动模式。最终，我们得到一个包含K= 2048个离散动作标记的车辆运动代码簿。这些动作标记被作为附加标记（即<action_0>, <action_1>,…）集成到VLM中。在推理过程中，模型输出这些动作标记序列，随后使用动作代码簿将其解码为规划轨迹。关于动作标记化和轨迹解码的更多细节请参见补充材料。

统一推理和动作

AutoVLA在一个统一的自回归Transformer框架中整合了推理和动作生成，使得根据驾驶场景在快速思考和慢速思考之间自适应切换成为可能。在快速思考模式下，AutoVLA直接预测物理动作标记而不需要生成长的推理步骤，从而在简单场景中实现快速响应。相反，在慢速思考模式中涉及结构化的链式推理（CoT），模型首先分析环境，识别关键元素，并在决定最终驾驶动作之前对潜在结果进行推理。为了启用这种双重思考能力，AutoVLA使用直接动作监督和推理增强数据的混合进行训练。我们设计系统提示和响应格式以一致地支持两种模式。

推理数据

推理数据提供了高质量的CoT标注，这对于训练具有推理能力的VLM至关重要。在驾驶任务中，推理涉及理解动态环境中复杂的语义和交互。尽管其重要性，开发高质量的大规模驾驶推理数据集仍然是一个关键挑战，原因有三个主要限制：1) 场景多样性有限和重复示例；2) 关键感知线索表示不足，如交通标志和车辆指示灯信号；3) 低质量的推理过程，如在没有正当理由的情况下反复停在停车标志处。

为了解决这些问题，我们提出了一个自动推理标注管道，使用先进的Qwen2.5-VL-72B模型。该管道能够自动生成高精度的推理标注，并支持从大型能力强的模型到更紧凑的目标模型的知识蒸馏。该管道生成的结构化推理标注涵盖四个关键组成部分：详细的场景描述、关键物体识别、周围代理意图预测和适当的驾驶动作确定。为了规范推理结果，我们的方法将真实驾驶动作作为提示，引导模型产生因果解释，明确将驾驶决策与场景上下文联系起来。这种结构化提示方法显著减少了无意义输出，并最大限度地减少了人工校正的需求。

利用这一标注管道，我们编制了一个包含约45.6k CoT推理标注的nuPlan数据集和7.2k标注的Waymo E2E数据集的全面推理数据集。此外，我们重新格式化并整合DriveLM，这是一个基于nuScenes和CARLA模拟数据构建的VQA数据集，以增强推理数据。其他细节和示例说明请参见补充材料。

监督微调

监督微调(SFT)用于训练模型生成推理和动作序列。给定多帧相机图像C，高级导航指令I和自车状态S，模型被训练以生成输出令牌序列。输出序列由用于推理的语言令牌l=[l1,…, lL]和动作令牌a=[a1,…, aT]组成。为了在SFT期间启用快速和慢速思考，我们整理了包含真实助手回应的训练数据，这些回应要么仅包含最终动作令牌，要么结合CoT推理与相应的动作令牌。在快速思考模式下，l是一个固定的短模板，表明不需要推理。相反，在慢速思考模式下，l以引入需要CoT推理的模板开始，接着是结构化的推理序列。

第一个监督信号是标准的因果语言建模目标，它最小化目标令牌序列的负对数似然，促进推理能力。另一个监督信号关注规划准确性，我们在出现在输出序列位置xL+1到xL+T的动作令牌a=[a1,…, aT]上引入辅助损失。给定输出序列x=[l1,…, lL, a1,…, aT]，损失函数定义如下：

强化微调

实验结果分析

实验设置

数据集

我们使用多样化的现实世界和模拟数据集训练AutoVLA模型。nuPlan（Open-Scene）数据集包含120小时的大规模驾驶数据，包含8路相机数据和物体标注。Waymo端到端驾驶数据集包含4,021个20秒的驾驶片段，配备8路相机视图和自车轨迹，特别关注具有挑战性和长尾场景，例如穿越施工区域或危险情况。nuScenes数据集提供1,000个城市驾驶场景，配备6个相机视角。CARLA-Garage数据集从CARLA模拟器中提供了超过500,000帧的相机数据。除了收集的推理数据外，我们还利用DriveLM数据集中的nuScenes和CARLA数据集，通过重新格式化VQA对来促进链式推理（CoT）。

基准测试

我们在真实世界和模拟环境中的开环和闭环基准上评估AutoVLA。开环性能在两个公共基准上进行评估：来自nuPlan数据集的NAVSIM基准和nuScenes基准。NAVSIM基准使用PDMS来评估驾驶行为的关键方面，如碰撞和自车进度。nuScenes基准使用L2距离和碰撞率作为评估指标。此外，我们使用RFS度量报告模型在Waymo端到端驾驶基准上的表现，该度量反映了人类判断的规划质量。闭环性能在CARLA模拟器中的Bench2Drive基准上进行评估。Bench2Drive包含44个交互性闭环场景，在不同地点和天气条件下使用成功率、驾驶评分、效率和舒适度等指标

实现细节

每个动作标记对应0.5秒的移动，规划视野设置为5秒。因此，模型输出10个动作标记，从中可以解码出5秒的轨迹。对于SFT，我们使用1 × 10^-5的学习率和FSDP训练策略。模型在8块NVIDIA L40S GPU上训练5轮。每块GPU的批处理大小为1，并在4步内累积梯度，结果得到的有效批量大小为32。SFT损失函数中的权重参数设置为λa= 1和λcot= 40。对于RFT，我们采用LoRA适配器进行高效参数训练。RFT的学习率设置为3×10^-5，KL正则化权重β设置为0.04。我们每次步骤只进行一次策略更新，允许使用简化的目标函数而无需剪切或跟踪旧策略。模型经过6,000步微调，并选择表现最好的检查点用于评估。更多实现细节请参见补充材料。

主要结果

本节报告了AutoVLA模型在各种数据集和基准上的主要结果，其他结果包含在补充材料中。

数据扩展结果

我们在nuPlan和nuScenes数据集的混合数据上训练AutoVLA，使用不同的训练集大小（10k、50k、100k和完整的185k样本），并使用仅动作监督或添加额外的CoT推理监督。模型在各自的标准化测试集上进行评估，结果如图4所示。我们观察到，增加训练数据量持续提升了两个数据集上的规划性能。在nuPlan数据集中，当使用少于50k的训练样本时，CoT推理在PDMS和碰撞得分上未优于仅动作方法。这可能是由于有限数据学习结构化推理的难度较大。然而，随着训练集规模的增加，使用CoT推理训练的模型超过了仅动作监督的模型，突出了推理增强学习的可扩展性优势。在nuScenes数据集中，仅动作监督在L2距离和碰撞率上表现更好。这可能是因为nuScenes包含的大多是不需要复杂推理的简单场景，使得CoT训练在此情况下收益不大。

RFT性能

我们将RFT应用于通过SFT训练的完整数据CoT推理模型，以增强其规划性能。如图5(a)所示，RFT在NAVSIM测试集上使PDMS提高了10.6%，并在平均500个测试场景中将运行时间减少了66.8%。图5(b)中的奖励曲线展示了模型在RFT期间策略的逐步改进。不同GRPO组样本大小的实验表明，较大的组通过促进更广泛的训练样本探索带来了更好的性能。如图5(c)所示，RFT也减少了简单场景中不必要的缓慢推理，这是由CoT长度惩罚驱动的，鼓励在简单驾驶案例中快速思考。定性比较显示，SFT模型由于生成过程中的误差积累产生了次优计划，而RFT模型（通过基于PDMS的奖励优化）生成了更好的规划轨迹。

nuPlan基准结果

我们在NAVSIM基准上评估了AutoVLA与现有最先进的端到端驾驶模型的表现，结果见表1。

Waymo E2E性能

我们在Waymo端到端驾驶数据集上评估AutoVLA，该数据集包含了长尾和复杂的驾驶场景。模型在不同训练设置下的测试集表现如图6所示。结果显示，在nuPlan和nuScenes数据集上预训练显著提升了性能，表明通过接触更多样化的训练数据增强了场景理解能力。在训练中加入CoT推理进一步提升了规划性能，相比仅动作训练有所改善。使用ADE作为奖励函数的RFT后训练在整体RFS指标上达到了最佳表现。一个在施工区域的情景定性示例展示了模型在遮挡推理和生成有效绕行计划方面的能力建设。更多结果请参见补充材料。

CARLA闭环性能

我们在CARLA模拟器中的Bench2Drive基准上评估了AutoVLA模型的闭环驾驶性能。模型使用SFT同时训练轨迹数据和CoT数据。在测试过程中，规划频率设置为2 Hz。结果显示在表2中，AutoVLA在闭环测试的整体驾驶评分和成功率上超越了现有的端到端驾驶模型。

消融研究

文本航路点输出：我们使用来自nuPlan和nuScenes数据集的相同混合训练集来训练一个模型，预测文本格式的航路点，然后将其转换为轨迹。我们在标准测试集上评估其性能。结果如表3所示，表明我们的动作标记化和生成方法明显优于基于文本的航路点预测方法。此外，由于需要解码数值值，基于文本的方法在生成最终轨迹时计算成本显著更高。这表明语言模型在处理精确数值推理方面存在局限性。

结论

我们提出了AutoVLA，一种统一场景推理和动作生成于单一自回归模型中的端到端自动驾驶框架。我们采用SFT使模型能够在快速思考（直接轨迹生成）和慢速思考（增强的长链式推理）模式下运行。此外，我们引入RFT，通过惩罚不必要的推理并使动作生成与奖励函数对齐，实现自适应推理，提高性能和效率。实验结果表明，AutoVLA在开环和闭环规划基准测试中表现出色，并具备强大的推理能力。

局限性与未来工作

尽管我们的双过程自适应模型实现了接近实时的推理（1 Hz），但它仍然高度依赖GPU，需要大量的内存和计算资源。未来的工作将集中在实时应用上，优化运行效率并减少计算开销（例如，通过模型量化）以实现实时部署。

2025-06-19 UCLA最新！开闭环AutoVLA：强化学习微调&自适应推理如何打造高效端到端规划？

发表回复取消回复

Categories

Archives

2025-06-19 UCLA最新！开闭环AutoVLA：强化学习微调&自适应推理如何打造高效端到端规划？

发表回复 取消回复

Categories

Archives

发表回复取消回复