2025-12-18 华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架……

原文链接:https://mp.weixin.qq.com/s/jZHaZ9b2KeIF2Sr5ypkUiQ

华科&小米的一篇新工作MindDrive,提出了一种基于在线强化学习的VLA框架。相比RecogDrive、ORION提升了不少,在Qwen2-0.5B的基座上效果挺不错的。

当前自动驾驶领域VLA的相关工作主要依赖模仿学习,这会带来分布偏移和因果混淆等固有挑战。在线强化学习通过试错学习为解决这些问题提供了一条极具潜力的途径。然而,将在线强化学习应用于自动驾驶视觉-语言-动作模型时,面临着连续动作空间中探索效率低下的难题。为克服这一限制,华科和小米的团队提出了MindDrive——一种包含大语言模型(LLM)的视觉-语言-动作框架,该模型配备两组不同的LoRA参数。其中一组大语言模型充当决策专家,负责场景推理和驾驶决策;另一组则作为动作专家,将语言决策动态映射为可行驶轨迹。通过将轨迹级奖励反馈至推理空间,MindDrive能够在有限的离散语言驾驶决策集合上进行试错学习,而非直接在连续动作空间中操作。该方法有效平衡了复杂场景下的最优决策、类人驾驶行为与在线强化学习中的高效探索。在具有挑战性的Bench2Drive基准测试中,MindDrive取得了优异的闭环性能,驾驶得分(DS)达78.04分,成功率(SR)为55.09%。据我们所知,这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究。

  • 论文标题:MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning
  • 论文链接:https://arxiv.org/abs/2512.13636
  • 项目主页:https://xiaomi-mlab.github.io/MindDrive/

一、背景回顾

自动驾驶依赖模型在动态复杂环境中的感知、决策与动作执行的能力。传统端到端自动驾驶框架整合了感知、预测和规划模块,但缺乏常识和因果推理能力。随着视觉语言模型(VLM)在视觉理解和推理能力上的提升,众多研究尝试将视觉-语言-动作(VLA)范式应用于端到端自动驾驶领域。自动驾驶中的视觉-语言-动作范式旨在将复杂交通场景的理解转化为自车的行驶轨迹。

当前的视觉-语言-动作模型主要采用模仿学习(IL)进行训练,其目标是拟合从收集到的驾驶数据中提取的专家行为。然而,单纯依赖模仿学习范式会导致模型易受因果混淆和分布偏移的影响,进而在闭环驾驶场景中产生不可逆的误差累积。强化学习通过试错学习为解决这些挑战提供了新思路,并在提升视觉语言模型的因果推理能力方面取得了显著成效。

与视觉语言模型离散语言空间中的强化学习不同,自动驾驶的动作空间是连续的轨迹空间。当前强化学习在自动驾驶视觉-语言-动作领域的应用主要分为两类范式:动作空间的离线强化学习和语言空间的在线强化学习。离线强化学习通常基于专家演示构建的固定数据集进行训练,如图1(a)所示。这些方法采用带有不同奖励函数的离线强化学习,在动作空间中生成更可行的轨迹。尽管取得了一定进展,但离线强化学习限制了视觉-语言-动作模型通过与环境交互进行探索的能力。此外,强化学习中对轨迹的优化无法有效提升视觉语言模型的推理能力。为克服这些限制,部分方法尝试在语言空间中应用在线强化学习,如图1(b)所示。这些方法将驾驶决策视为动作,通过在线强化学习加深对因果推理的理解,但难以将驾驶决策有效映射为具体且类人的驾驶轨迹。因此,利用在线强化学习提升自动驾驶视觉-语言-动作模型的性能仍需进一步探索。

为应对上述挑战,我们提出了一种新型架构MindDrive——一种基于在线强化学习的自动驾驶视觉-语言-动作模型,如图1(c)所示。MindDrive通过动态映射将动作空间从轨迹转化为基于语言的决策,在利用轨迹奖励强化模型在线推理的同时,显著提升了探索效率。具体而言,MindDrive包含两个同质的大语言模型,仅在各自的低秩适配(LoRA)适配器上存在差异。其中一个大语言模型作为决策专家,负责根据当前场景做出合理决策;另一个作为动作专家,建立推理结果到连续轨迹的动态映射。MindDrive首先通过模仿学习在决策专家推断的元动作与动作专家输出的多模态轨迹之间建立一一对应关系。动作专家输出的高质量驾驶轨迹为在线强化学习提供了合理且类人的候选轨迹。随后,我们利用在线强化学习对决策专家进行优化,使其能够通过采样不同轨迹并从在线交互环境中接收相应的奖励信号,学习如何做出正确决策。同时,为实现模型在动态交互环境中的探索与训练,我们基于CARLA仿真器构建了一个面向自动驾驶视觉-语言-动作模型的在线闭环强化学习框架。我们定义了明确的任务成败信号,并将在线强化学习过程划分为数据收集和训练两个阶段。在数据收集阶段,我们计算并缓存每帧的场景令牌,作为紧凑的状态表示。这一预计算步骤降低了内存缓冲开销,支持大批量训练,并使整个过程可表述为标准的马尔可夫决策过程。

我们在全面且具有挑战性的闭环基准测试Bench2Drive上评估了MindDrive的驾驶能力。大量实验表明,我们的框架在复杂驾驶场景中实现了更有效的驾驶行为。值得注意的是,即使采用轻量级的0.5B参数大语言模型,MindDrive仍取得了78.04分的驾驶得分(DS)和55.09%的成功率(SR),分别比相同参数规模的强基线模型高出5.15分和9.26%。

本文的主要贡献如下:

  1. 提出了MindDrive——一种面向视觉-语言-动作自动驾驶模型的在线强化学习框架。通过引入动态的语言-动作映射,MindDrive显著提升了探索效率,并利用轨迹级动作奖励促进推理优化。
  2. 提出了一种计算高效的在线强化学习方案。据我们所知,MindDrive是首个在仿真器中通过在线强化学习训练的基于视觉-语言-动作的自动驾驶模型,旨在为自动驾驶领域带来新的启发。
  3. 大量实验验证了MindDrive的有效性,其在Bench2Drive基准测试中取得了78.04分的驾驶得分和55.09%的成功率,显著优于相同模型规模下最先进的模仿学习基线。

二、MindDrive算法详解

本节将详细介绍所提出的MindDrive。如图2所示,MindDrive的架构包含两个核心组件:决策专家(Decision Expert)和动作专家(Action Expert)。两者共享相同的视觉编码器(Vision Encoder)和文本分词器(Text Tokenizer),仅在各自的低秩适配(LoRA)参数上存在差异。决策专家基于导航指令和多视角视觉输入进行高层推理,以元动作(meta-actions)的形式生成抽象驾驶决策;动作专家则结合场景信息和指令,将这些元动作转化为具体的动作轨迹。该设计实现了灵活且可解释的动作生成,衔接了高层推理与低层控制。我们的训练过程分为两个阶段:1)模仿学习(IL)建立语言与动作空间的映射,为在线强化学习(RL)提供高质量候选轨迹,有效缩小其探索空间;2)在线强化学习通过在线环境中的动作奖励进一步提升模型的理解能力。

问题表述

语言-动作映射

面向动作推理的在线强化学习

模仿学习能生成类人轨迹,但常受因果混淆问题困扰。为解决这一问题,我们在CARLA仿真器中引入在线强化学习。如图3所示,这种在线方式使智能体能通过试错探索环境,从直接交互及其后果中学习,进而提升模型在复杂场景下的驾驶性能。

实验结果分析

主要结果

我们在Bench2Drive基准测试集上,将MindDrive与传统端到端(E2E)和视觉-语言-动作(VLA)范式的代表性方法进行了全面对比。表1列出了详细结果,主要发现如下:

  1. 轻量级模型实现优异性能:与传统端到端方法相比,MindDrive超越了最新的最先进(SOTA)模仿学习模型DiffAD,驾驶得分提升10.12分,成功率提升16.45%;超越离线强化学习方法Raw2Drive,驾驶得分提升6.68分,成功率提升4.85%。在视觉-语言-动作范式中,MindDrive与最先进的模仿学习模型ORION性能相当,且比DriveMoE的驾驶得分高3.82分,成功率高6.45%。值得注意的是,MindDrive采用轻量级Qwen2-0.5B模型,而ORION和DriveMoE分别使用更大规模的Vicuna1.5-7B和Paligemma-3B模型,凸显了我们方法的高效性。
  2. 在线强化学习增强复杂动态交互能力:如表1所示,MindDrive相较于其他方法展现出明显优势。它超越离线强化学习方法RecogDrive,驾驶得分提升6.68分,成功率提升9.64%;相较于MindDrive-IL(仅模仿学习版本),驾驶得分提升2.19分,成功率提升5.79%,充分验证了所提在线强化学习范式的优越性。多能力评估结果进一步支持这一发现:MindDrive的平均能力比RecogDrive提升14.91%,比采用相同轻量级大语言模型的模仿学习方法ORION提升5.57%。特别是在与元动作选择密切相关的能力上,超车(Overtaking)能力提升55.56%,让行(Give Way)能力提升30%。尽管MindDrive在紧急制动(Emergency Brake)和交通标志识别(Traffic Sign)能力上略低于最先进的视觉-语言-动作方法,但相较于MindDrive-IL仍有显著提升,分别提高8.33%和0.98%。这些结果证实,在线强化学习显著增强了模型在复杂交互环境中的因果推理能力和决策鲁棒性。

消融实验

消融实验中,除非另有说明,每条路线执行两次在线强化学习rollout。

惩罚事件消融:在线强化学习阶段,我们引入四类惩罚事件:与行人或车辆碰撞、闯红灯、驶离道路或偏离路线超过30米、不遵守停车标志(分别记为碰撞、交通灯、路线偏离、停车),并为触发这些事件的模型分配-1的稀疏奖励。如表2所示,随着这些惩罚事件的逐步加入,模型的成功率和平均驾驶能力相较于模仿学习基准(ID-1)持续提升。具体而言,引入碰撞惩罚(ID-2)后,成功率较基准提升1.4%,平均能力提升3.76%,且驾驶得分保持相当水平;在超车场景中,MindDrive表现尤为突出,较基准提升4.44%,这得益于模型学会了在连续交互的交通流中采取更主动的避撞策略,但这种策略转变也导致并道(Merging)性能有所下降。引入交通灯惩罚(ID-3)后,交通标志识别能力提升1.52%,紧急制动能力提升8.97%,但惩罚中的冲突奖励信号导致超车性能明显下降。引入路线偏离惩罚(ID-4)有助于在果断性和谨慎性之间取得更好平衡,但对探索的严格约束限制了进一步的性能提升。值得注意的是,添加停车标志惩罚后,模型整体性能显著提升——这与停车元动作高度相关,能促进更有效的策略学习,尤其在含停车标志的并道场景中,相较于ID-4,并道能力提升5.26%,成功率提升3.24%。无需复杂的奖励工程,MindDrive即可通过在线试错发现有效的驾驶策略,从失败中自主学习以逐步确定最优动作。

rollout次数消融:我们进一步分析了在线强化学习过程中滚动次数对MindDrive的影响。如图4所示,仅执行一次滚动时,价值网络的估计不准确导致动作优势估计出现偏差,性能较基准下降;执行两次滚动后,模型显著超越基准,驾驶得分提升2.19分,成功率提升5.79%;但继续增加滚动次数会导致性能大幅下降,驾驶得分从78.04降至73.69,成功率从55.09%降至45.12%。这一退化源于灾难性遗忘——过多滚动导致策略过拟合近期经验,忘记之前学到的场景理解能力。因此,我们将默认滚动次数设为2,以平衡探索效率和训练稳定性。

策略正则化消融:我们在PPO框架内评估了不同的策略正则化方法,结果如表3所示。我们的方法(PPO-KL)相较于基础PPO(PPO-Vanilla),驾驶得分提升3.31分,成功率提升8.36%,表明KL散度损失能有效稳定强化学习训练过程中的策略更新,缓解灾难性遗忘;相较于基于熵的正则化(PPO-Entropy),驾驶得分提升2.33分,成功率提升5.85%,说明尽管熵正则化能促进探索,但过多的策略随机性对于目标导向的驾驶任务并非最优。总体而言,我们的KL正则化方法实现了更高效的学习,策略优化过程更快,样本效率高于基准方法。

控制方法消融:我们通过对比两种高层指令方式,研究了不同控制方法的效果:导航指令和大语言模型生成的元动作。如表4所示,基于视觉语言模型引导的元动作模仿学习模型,相较于导航指令基准,驾驶得分提升7.74分,成功率提升7.71%,表明视觉语言模型衍生的元动作能支持复杂交通场景下更有效的推理;引入在线强化学习后,元动作选择进一步优化,驾驶得分额外提升2.19分,成功率额外提升5.79%。

定性结果

图5展示了MindDrive的模仿学习版本与强化学习版本的定性对比。模仿学习范式在特定任务上表现出较强能力(如及时发出停车指令以实现早期制动),但仅通过模仿学习训练的MindDrive在动态交互场景中表现不佳,尤其在需要复杂决策的场景(如确定最优变道时机)中。经过强化学习训练后,MindDrive在具有挑战性的场景中能选择更稳健的元动作,实现更安全、更果断的变道行为。这些定性结果表明,强化学习阶段显著提升了视觉语言模型的高层推理和决策能力,使其能更好地应对复杂且不确定的交通环境。

四、结论

在本文中,我们提出了MindDrive——一种新型自动驾驶框架,该框架以语言为接口实现在线强化学习(RL)。MindDrive将语言指令映射为动作,把探索空间转化为离散的语言空间,从而降低强化学习的成本。它还能让大语言模型通过闭环仿真器中的动作反馈,优化自身的推理能力。

我们在提出的在线强化学习训练框架中开展了实验。结果表明,MindDrive凭借轻量级模型实现了最先进的性能。据我们所知,这是首个在交互式仿真器中成功训练用于自动驾驶的视觉-语言-动作模型的研究。我们期望这项工作能为自动驾驶领域带来宝贵的启发。

局限性

由于缺乏真实世界的交互仿真器,我们的评估仅限于CARLA仿真器。此外,同步多个CARLA仿真器存在技术挑战,这使得我们无法评估相同初始状态下的备选动作,进而限制了GRPO算法的应用。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论