2026-01-22 李弘扬团队PlannerRFT:扩散轨迹规划新方案,提升复杂驾驶场景性能(同济&港大)

原文链接:https://mp.weixin.qq.com/s/tGwA_DqfBltq6LkI_D1tvA

同济、上海创智学院、港大OpenDriveLab等团队的工作。基于闭环强化学习和高效微调的Diffusion Planner – PlannerRFT。提炼几个关键点:

  • 开发了新的nuMax仿真器,比nuPlan加速十倍;
  • 三阶段训练:IL预训练,IL微调,RL微调,RL基于PPO和GRPO实现;
  • 在去噪策略和轨迹采样上做了些优化。

基于扩散模型的规划器已成为自动驾驶中生成类人轨迹的一种极具潜力的方法。近期研究通过生成-评估循环中的奖励导向优化,将强化微调融入扩散规划器以提升其鲁棒性。然而,这些方法难以生成多模态、场景自适应的轨迹,阻碍了微调过程中信息性奖励的利用效率。

为解决这一问题,港大OpenDriveLab联合同济大学等研究团队提出PlannerRFT——一种适用于基于扩散模型规划器的样本高效强化微调框架。PlannerRFT采用双分支优化策略,在不改变原始推理流程的前提下,同时优化轨迹分布并自适应引导去噪过程朝向更具潜力的探索方向。为支持大规模并行学习,本文开发了nuMax仿真器,其轨迹推演速度较原生nuPlan快10倍。大量实验表明,PlannerRFT取得了最先进的性能,且在学习过程中展现出鲜明的行为特征。

  • 论文标题:PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning
  • 论文链接:https://arxiv.org/abs/2601.12901
  • 项目主页:https://opendrivelab.com/PlannerRFT

PS. 李弘扬老师团队最近在自驾和具身方面的工作都挺多的,可以多关注下主页:https://opendrivelab.com/AutonomousDriving

一、背景回顾

近年来,基于扩散模型的规划器已成为动态环境中生成类人化、社会兼容驾驶轨迹的强大概率范式。这类规划器通过模仿学习(IL)从大规模人类驾驶演示数据中习得驾驶技能。尽管这些方法能够建模复杂的行为,但它们存在分布偏移和目标错位问题,限制了其在真实场景部署中的鲁棒性和可靠性。

强化学习(RL)提供了一种潜在的解决方案。通过仿真器辅助探索和奖励导向优化,基于RL的规划器能够利用大规模仿真数据和简单奖励进行扩展。近期的生成-评估强化微调(RFT)范式展示了训练效率与闭环规划性能提升之间的平衡。在该范式中,轨迹生成器作为智能体生成多样化的候选轨迹,这些轨迹在仿真器中被评估,并通过分组强化微调进行迭代优化。该范式的整体性能主要取决于生成器的探索能力,即候选轨迹的分布情况。这引出了两个关键要求:(i)多模态——在相同场景下生成多样化操作假设的能力;(ii)适应性——根据更优行为自主调整探索分布的能力,例如AlphaGo采用蒙特卡洛树搜索(MCTS)实现自适应探索。

然而,原生扩散模型规划器存在mode collapse问题,即在去噪过程中,不同噪声输入生成的轨迹最终会收敛到几乎相同的结果。这种坍缩限制了探索能力,导致强化微调缺乏有效的优化信号。为缓解这一问题,基于锚点的扩散规划器从不以纯高斯噪声为起点,而是从以锚点为中心的高斯分布初始化去噪过程,从而能够生成多样化且操作一致的轨迹。尽管如此,这些固定的、场景无关的锚点对于奖励导向优化而言并非最优。如图1(b)所示,部分锚点能产生与场景兼容的操作,但更多锚点会生成与环境冲突的运动,这会引入噪声梯度并阻碍稳定的强化优化。总体而言,有效的探索不仅需要多样化的操作,还需要与场景一致的操作,进而促进高效的强化微调。

为此,本文提出PlannerRFT,一种用于扩散模型规划器强化微调的闭环且样本高效的框架。如图1(c)所示,PlannerRFT通过策略引导去噪实现多模态和场景自适应的轨迹采样,为分组轨迹优化提供稳定且高效的探索。为支持可扩展的闭环训练,本文开发了GPU加速仿真器nuMax,支持高通量并行轨迹推演。

为实现多模态,PlannerRFT引入基于能量的分类器引导机制,通过在去噪过程中注入残差偏移,使模型能够生成多样化的操作轨迹。为实现适应性,一个专门的探索策略学习自适应引导尺度,根据场景上下文调节探索过程,实现场景感知的轨迹生成。该探索策略通过与仿真器的闭环交互,采用近端策略优化(PPO)进行优化,在强化微调期间引导规划器生成时间一致、安全且高效的行为。

在轨迹优化方面,本文利用GRPO对扩散规划器的去噪过程进行微调。为在复杂场景中稳定优化,本文引入生存奖励机制,累积非终端轨迹的奖励,鼓励规划器延迟失效并提升长时域可行性。为提高在线轨迹推演的可扩展性和效率,本文开发了nuMax——一款基于Waymax构建并针对大规模nuPlan基准数据集校准的GPU并行仿真器,其仿真速度较原生nuPlan仿真器快10倍。

在nuPlan基准数据集上的大量评估表明,PlannerRFT取得了最先进的性能。与仅经过模仿学习预训练的基准模型相比,PlannerRFT在处理碰撞、偏离车道等失效场景时表现出显著提升,进而提高了驾驶安全性。此外,PlannerRFT展现出鲜明的类人驾驶行为,操作更安全、更高效,充分证明了本文强化微调框架的有效性。本文的贡献总结如下:

  • 提出PlannerRFT,一种用于基于扩散模型规划器的闭环强化微调框架,通过策略引导去噪提升强化学习采样效率。
  • 设计探索策略,能够跨场景自适应调节轨迹采样,并与分组强化优化协同实现稳定微调。为支持大规模在线训练,本文进一步开发了针对nuPlan基准数据集校准的GPU并行仿真器nuMax。
  • 在nuPlan上的大量实验表明,PlannerRFT取得了最先进的性能,同时显著提升了复杂驾驶场景下的安全性和鲁棒性。

二、预备知识回顾

任务定义

运动规划的目标是在动态驾驶环境中为自车生成安全可行的轨迹。本文重点通过强化微调提升模仿学习(IL)预训练扩散规划器的闭环性能,从而在运动规划中实现更高的安全性、舒适性与效率。

规划器架构

三、PlannerRFT详解

PlannerRFT概述

如图2所示,针对经模仿学习预训练的扩散规划器,PlannerRFT采用“生成-评估”范式与群组相对策略优化(GRPO),旨在提升其闭环规划性能。在强化微调(RFT)阶段,将经模仿学习预训练的规划器复制并冻结,作为全局参考模型。为提高轨迹采样的多模态性与适应性,本文引入策略引导去噪机制:在原始模型架构中嵌入探索策略模块,并通过闭环Rollout与近端策略优化(PPO)对该策略进行优化。

策略引导去噪

引导去噪

探索策略设计

轨迹采样

闭环rollout

nuMax仿真器

与基于预收集离线数据集训练的模仿学习方法不同,强化学习的训练数据来自训练过程中的仿真生成数据。因此,在计算资源有限的情况下,提升仿真吞吐量对于加速模型迭代和实现规模化训练至关重要。为此,本文开发了nuMax——一款GPU并行仿真器,其Rollout速度较原生nuPlan仿真器提升10倍。该仿真器基于Waymax和V-Max构建。

Rollout规划

策略优化

探索策略优化

轨迹优化

PlannerRFT最佳实践

以下总结使用PlannerRFT对扩散型规划器进行有效微调的最佳实践:

  • 微调DDIM去噪:采用5步DDIM去噪方案。与基于常微分方程(ODE)的去噪相比,DDIM引入的随机性可增强探索能力,且所需步骤远少于DDPM,能保证较高的训练效率。
  • 探索策略零初始化:探索策略初始化为生成横向和纵向零均值引导尺度。该初始化方式确保在参考轨迹附近进行无偏探索,缓解微调初期的性能下降问题。
  • 即插即用微调:强化微调阶段,参考扩散Transformer与探索策略协同工作,引导去噪过程,促进探索与策略优化;部署时,移除这些模块,使规划器保留原始扩散结构,同时实现轨迹性能提升。
  • 复杂场景微调:纳入适度比例的复杂场景可显著提升规划器的鲁棒性,但训练集过于复杂可能导致整体性能下降。5.3节将进一步分析微调数据选择的影响。

四、实验结果分析

本节旨在探究以下研究问题:1)PlannerRFT能否通过强化微调提升扩散型规划器的闭环规划性能?2)探索策略是否通过策略引导去噪提升采样效率?3)微调后的规划器是否会呈现出与模仿学习不同的行为模式?4)影响强化微调训练有效性的关键因素有哪些?

设置与协议

基准测试与基线模型

本文在大规模nuPlan基准测试上评估PlannerRFT。采用Val14基准测试评估模型在通用驾驶场景下的性能,Test14-hard基准测试包含更复杂的挑战性场景,用于反映模型在极端场景下的鲁棒性。所有评估均在nuPlan闭环仿真器中进行,支持非反应式和反应式背景交通设置:非反应式设置中,周围车辆遵循预录制轨迹;反应式设置中,采用智能驾驶模型(IDM),周围车辆根据自车动作动态调整行为,更真实地仿真现实世界交互。

本文将PlannerRFT与多种基线方法进行对比,包括基于规则的规划器(IDM、PDM-Closed)、基于学习的规划器(PlanTF、GameFormer、PLUTO)以及近期的生成式规划方法(Diffusion Planner、Flow Planner)。最终评估得分为所有场景的平均值(范围0-100),分数越高表示规划性能越好。

预训练

本文采用Diffusion Planner作为经模仿学习预训练的规划器,该规划器在nuPlan数据集的100万条片段上训练。将基于ODE的DPM-solver去噪替换为5步DDIM采样器:与ODE采样器相比,DDIM采样器性能相近,且引入的随机性可增强探索能力,同时减少的去噪步骤进一步提升了强化学习训练效率。

微调数据集

为进行强化微调,从nuPlan中收集144,494个非重叠场景(采样频率10Hz)。每个场景包含20帧历史数据、1帧当前帧和150帧未来轨迹,共171帧。本文使用预训练规划器评估所有场景,并根据性能得分构建三个数据集:1)Fail数据集:包含10,417个碰撞或偏离道路场景;2)Lt90数据集:包含所有低得分(低于90分)场景,共24,691个;3)All数据集:包含所有可用场景。

强化微调细节

所有实验在8块NVIDIA H100 GPU上进行,微调过程共运行4000万个step。PPO和GRPO优化的超参数详见补充材料。

主要结果

与现有最优方法对比

表1展示了模型在挑战性场景(Test14-hard)和通用场景(Val14)下的规划结果。与预训练的Diffusion Planner相比,PlannerRFT在所有四个基准测试中均提升了闭环规划性能。值得注意的是,在反应式交通设置中,PlannerRFT取得了显著提升:Val14基准测试提升1.66分,Test14-hard基准测试提升2.99分。这表明闭环Rollout使规划器能够接触更广泛的交互模式,缓解分布偏移问题,同时Rollout过程中的迭代反馈使模型能够持续优化轨迹。

与其他现有最优规划器相比,PlannerRFT在四个基准测试中的三个中取得了最佳整体性能。然而,在非反应式常规场景(Val14-NR)中,性能提升较为有限,这可能源于非反应式环境固有的分布偏差。值得关注的是,PlannerRFT在包含动态、高交互场景的Test14-hard-NR数据集上提升了2.99分,突显了其有效性。

定性结果

消融实验

探索策略有效性

对于适应性,计算每个GRPO群组中所有采样轨迹的奖励均值和标准差。如表2所示,均匀探索策略虽取得最高多样性得分,但性能最差——其场景无关的采样引入了过大的奖励方差,导致训练不稳定,出现多次奖励坍缩(如图6所示)。相比之下,固定探索策略通过限制探索范围稳定了训练,但过于狭窄的搜索空间也制约了性能上限。本文提出的策略引导去噪探索能够基于场景上下文自适应调整探索方向,同时实现稳定训练和更高的闭环性能。

微调数据分布的影响

本文发现训练场景的构成显著影响学习过程的特性。如表3所示,仅在碰撞场景(Fail数据集)上训练会导致所有基准测试的性能严重下降,表明过于复杂的场景会使规划器遗忘常规驾驶动作的处理能力;而在所有可用场景(All数据集)上训练包含大量简单场景,导致优化信号较弱,在复杂场景上的提升有限。最佳结果来自于在平衡数据集(Lt90数据集)上的微调——该数据集结合了碰撞场景和低得分场景,表明适度比例的复杂场景对于有效的强化微调至关重要。为保证完整性,本文还设置了在相同Lt90数据集上训练的模仿学习微调基线,其性能更差,这证实了PlannerRFT的性能提升源于通过探索在复杂训练分布上的有效学习,而非额外的训练迭代。

奖励类型与奖励时域的影响

表4对比了GRPO奖励的不同公式和时域长度。终端奖励在Val14基准测试上的性能与生存奖励相当,但在Test14-hard基准测试上性能下降——该场景中碰撞或偏离路线事件频繁发生,导致奖励归零。相比之下,生存奖励鼓励轨迹延迟失效,使闭环设置下的性能能够持续提升。对于奖励时域,2秒的短时域因时间上下文有限而性能不佳,4秒和6秒时域的结果相近,表明适度的时域长度足以满足微调需求。

五、结论与展望

本文提出了PlannerRFT——一种适用于基于扩散模型规划器的闭环、样本高效的强化微调框架。在nuPlan基准测试上的实验验证了该框架在闭环性能方面的显著提升。与模仿学习微调基线的对比结果表明,这些性能增益源于有效的探索过程,而非额外的训练迭代次数。对不同探索策略的分析进一步凸显了PlannerRFT在样本效率方面的场景自适应优势。

局限性与未来工作

PlannerRFT目前仅在采用结构化抽象输入的规划器上得到验证,尚未应用于图像等感官观测输入场景。其在视觉运动规划器中的适用性仍有待深入研究。尽管如此,该框架基于预训练策略的样本高效设计,为通过强化学习以闭环方式训练端到端规划器奠定了基础,这也将作为本文未来的研究方向。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论