2025-08-15 GRPO并非最优解？EvaDrive：全新RL算法APO，类人端到端更进一步（新加坡国立）

原文链接：https://mp.weixin.qq.com/s/oE4uioTJSq8cclmqPI3vig

最近很多端到端方向的工作！今天自动驾驶之心为大家分享新加坡国立、清华和小米等团队最新的工作 – EvaDrive。这篇工作认为：

目前基于扩散模型的自车轨迹生成方法，其先生成后评测的框架一定程度阻碍了轨迹生成和质量评测的交互，对于自车轨迹规划而言并不友好；
另一方面，强化学习将多维偏好压缩为标量的奖励，模糊了模型学习中关键的trade-off，得到的奖励只是标量化的偏差，无法引导模型更好的优化。

为了解决这些问题，EvaDrive应运而生 – 一个全新的多目标强化学习框架，通过对抗性优化在轨迹生成和评测之间建立真正的闭环协同进化。EvaDrive将轨迹规划表述为多轮对抗游戏。在这个游戏中，分层生成器通过结合自回归意图建模以捕捉时间因果关系和基于扩散的优化以提供空间灵活性，持续提出候选路径。然后，一个可训练的多目标critic对这些proposal进行严格评测，明确保留多样化的偏好结构，而不将其压缩为单一的标量化偏差。这种对抗性迭代，在帕累托前沿选择机制的引导下，实现了多轮迭代优化，有效摆脱了局部最优，同时保持了轨迹多样性。在NAVSIM和Bench2Drive基准上的广泛实验表明，EvaDrive达到了SOTA，在NAVSIM v1上实现了94.9 PDMS（超过DiffusionDrive 6.8分，DriveSuprim 5.0分，TrajHF 0.9分），在Bench2Drive上实现了64.96驾驶分数。EvaDrive通过动态加权生成多样化的驾驶风格，而无需外部偏好数据，引入了一种闭环对抗框架，用于类人的迭代决策，提供了一种全新的无标量轨迹优化算法。

论文链接：https://arxiv.org/abs/2508.09158

引言

近年来，自动驾驶技术取得了显著进展。这些进展使车辆能够在日益复杂的环境中导航。尽管在感知、预测和规划等模块化方法上取得了实质性进展，但将这些能力整合成一个完整的驾驶行为仍然是一个挑战。这一整合挑战的核心是车辆轨迹规划，即生成可行、安全且高效的运动轨迹的过程。

传统的模块化方法提供了可解释性和可分解性，但容易在各个阶段累积误差。相比之下，端到端方法能够实现整体优化，但通常在泛化能力上表现不佳，并且难以对复杂驾驶决策中固有的多模态性进行建模。最近，生成-评测框架因其能够调和多样性与可控性而受到关注。轨迹生成器通过采用概率模型（如基于扩散的方法）来捕捉不确定性，从而合成多样化的轨迹候选。与此同时，评测器学习可微分的评分函数，根据预定义的多目标指标对这些轨迹进行排名。

尽管取得了近期进展，当前的生成-评测框架将规划和评测视为独立的、顺序的过程，缺乏类人决策所必需的闭环交互。相比之下，专业驾驶员会根据动态反馈持续生成、评测和优化动作。为了弥合这一差距，强化学习（RL）方法已成为有前景的替代方案。像TrajHF这样的方法使用GRPO，利用人类反馈来微调轨迹模型，而DPO风格的方法则通过成对偏好对齐来优化行为。然而，这些方法在自动驾驶领域面临着关键的局限性。首先它们依赖于人工标注的成对排序，这会引入主观性和不一致性，可能导致策略错位。其次，它们起源于语言任务，导致在连续、高维的驾驶场景中出现领域不匹配。最关键的是，一步优化缺乏安全、自适应规划所必需的迭代优化过程——这限制了在安全关键环境中的鲁棒性。

事实上，人类驾驶员会通过内部想象和与环境的交互，持续评测和优化轨迹决策，在做出最终行动之前会推理多个备选方案。这一观察引出了一个关键问题：自动驾驶车辆能否利用多模态轨迹提案和多轮优化来增强规划的鲁棒性，并与细致入微的人类偏好保持一致？我们以肯定的答案提出了EvaDrive，这是一种新颖的框架，它将轨迹规划重新表述为一个具有真正闭环交互的多目标强化学习问题。

与之前将多维偏好压缩为标量奖励的强化学习方法不同，EvaDrive采用了一个可训练的多目标奖励模型，该模型保留了安全、舒适和效率等多样化偏好结构，避免了标量化偏差。我们的方法基于两个关键见解：自动驾驶提供了自然可量化的指标，避免了GRPO所需的带噪成对排名；可行的轨迹构成了一个帕累托non-dominated集 set，其中各目标之间存在权衡。传统的标量化将这些目标压缩为单一指标，模糊了最优解并降低了策略的多样性。EvaDrive利用分层生成器和多目标critic之间的对抗性协同进化，实现多轮迭代优化，既能摆脱局部最优，又能保留强化学习的试错特性。主要贡献如下：

分层规划器：结合自回归意图建模（以捕捉时间因果关系）和基于扩散的优化（以提供空间灵活性），实现精确的轨迹建模。
多轮优化机制：连接轨迹生成和评测过程，通过动态反馈实现持续适应，并利用帕累托前沿选择机制巧妙地避免局部最优。
对抗性策略优化：通过生成器和评测器之间的动态博弈，不仅驱动轨迹质量的持续提升并有效摆脱局部最优，还能通过调整多个优化目标的动态权重比，生成不同风格的轨迹。

相关工作回顾

端到端自动驾驶 (E2E AD)

模仿学习（IL）已被广泛用于自动驾驶的端到端轨迹规划，其中原始传感器输入被映射到专家演示。UniAD和Transfuser利用鸟瞰图（BEV）表示，并引入了统一的多任务和安全感知架构，以构建以规划为中心的框架。VAD通过采用基于查询的表示并构建轨迹词汇表，进一步改进了这一设计，有效地将问题从回归任务转变为离散分类任务。

最近的基准测试，如NavSim，通过多智能体场景推动了端到端规划的发展，而包括Hydra-MDP、GTRS和iPad在内的框架则采用基于评分器的轨迹合成，并整合了环境交互。然而，这些方法普遍缺乏生成器-评分器的反馈回路。相比之下，我们受人类决策启发的解决方案将轨迹生成和评测整合到一个迭代优化循环中。

生成任务中的强化学习（多目标和多轮）

强化学习已成为优化复杂、目标驱动场景下生成模型的关键范式，尤其是在多目标和多轮对话系统中。这些任务需要平衡相互竞争的目标（例如，流利性、连贯性、任务成功率）并在多轮交互中保持长期上下文的一致性。

关键挑战包括不可微奖励工程、稀疏奖励的探索-利用权衡以及跨用户的泛化能力。新兴的解决方案将大语言模型（LLM）用于奖励建模和使用离线强化学习来降低交互成本，而与预训练对话系统结合的混合方法则在任务效率和自然流利性之间取得平衡。在自动驾驶领域，后训练对齐方法如GRPO和DPO被用于优化与人类偏好的匹配。相比之下，我们的框架开创性地将多轮多目标强化学习与对抗性策略优化（APO）相结合，用于轨迹优化。

问题定义

算法详解

在多目标强化学习的框架内，我们现在详细介绍我们方法的核心组件，包括轨迹生成和评测模块（Actor和Critic）、多轮优化机制以及对抗性偏好优化范式。

作为Actor的轨迹规划器

作为Critic的奖励模型

多轮优化机制

对抗性策略优化（APO）

实验结果分析

实现细节

实验在NAVSIM上进行，包括使用真实世界数据在NAVSIM v1（PDMS指标）和v2（EPDMS指标）上的开环评测，以及通过CARLA进行的闭环仿真（Bench2Drive）。我们的模型使用ResNet34作为主干网络，MLP作为自车状态编码器和奖励模型，并采用三摄像头设置。训练在4块NVIDIA H20 GPU上进行，使用Adam优化器（每块GPU的batch大小为8，学习率为7.5 × 10⁻⁵），在生成器和判别器之间交替进行5个epoch的训练周期，共进行30个epoch。数据集和指标的详细信息见附录。

定量与定性比较

路线图式消融实验

为了系统地评测EvaDrive中的关键组件，我们进行了一项路线图式消融实验。从一个基本的模仿学习基线（S0）开始，我们逐步引入了两阶段生成器、多目标奖励模型、多轮优化、帕累托前沿引导和对抗性偏好优化。表3总结了每个模块在NAVSIM v1基准上的规划性能影响。附录中提供了额外的消融结果和分析。

S1：引入两阶段生成器显著提高了轨迹的平滑性和空间多样性（PDMS提升+5.0）。自回归阶段捕捉了时间意图，而基于扩散的优化器增强了空间灵活性。
S2：在S1的基础上，我们引入了一个多目标奖励模型，将多样化的标准（如碰撞、加速度、自车进展）编码为显式信号。这使得在舒适度和效率之间能够进行细粒度的权衡，将PDMS提升至91.7。
S3：添加多轮优化通过历史反馈实现了迭代优化，通过持续校正增强了鲁棒性，减少了局部最优（相比S2，PDMS提升+2.0，达到93.7）。
S4：帕累托前沿引导在各目标之间保持了最优的权衡，促进了多样化且高质量的解决方案，实现了94.2的PDMS。
S5：对抗性偏好优化通过训练奖励感知的判别器，利用反馈来优化生成器，从而提升了策略质量，达到了最高的94.9 PDMS。

结论

本文提出了EvaDrive，这是一种通过对抗性协同进化将生成与评测统一起来的多目标强化学习规划器。该方法借鉴人类决策，利用多轮帕累托优化和一个结构化的非标量奖励模型，在避免标量化偏差和标注噪声的同时保持了轨迹多样性。通过结合分层生成器、基于扩散的优化器和判别器，EvaDrive能够对轨迹语义、多样性和安全性进行精确控制。在NAVSIM和Bench2Drive上的评测表明，EvaDrive实现了94.9 PDMS和64.96驾驶分数，使EvaDrive成为首个在开环和闭环设置中均能实现无标量化、偏好感知轨迹优化的闭环规划器。

更多可视化：

2025-08-15 GRPO并非最优解？EvaDrive：全新RL算法APO，类人端到端更进一步（新加坡国立）

发表回复取消回复

Categories

Archives

2025-08-15 GRPO并非最优解？EvaDrive：全新RL算法APO，类人端到端更进一步（新加坡国立）

发表回复 取消回复

Categories

Archives

发表回复取消回复