2025-02-21 端到端训练新范式！华科&地平线RAD：基于3DGS的闭环强化学习SOTA！性能提升3倍

原文链接：https://mp.weixin.qq.com/s/k-VBVnhxjcUdJs7XY8fkgQ

现有的端到端自动驾驶（AD）算法通常遵循模仿学习（IL）范式，这面临着因果混淆和开环Gap等挑战。在这项工作中，我们建立了一个基于3DGS的闭环强化学习（RL）训练范式。通过利用3DGS技术，可以构建真实物理世界的真实仿真结果，使AD策略能够广泛探索状态空间，并通过大规模试错学习处理分布外场景。为了提高安全性，我们设计了专门的奖励机制，引导策略有效应对安全关键事件并理解现实世界的因果关系。为了更好地与人类驾驶行为对齐，IL被纳入RL训练作为正则化项。我们引入了一个由多样且以前未见过的3DGS环境组成的闭环评估基准。与基于IL的方法相比，RAD在大多数闭环指标中表现更强，尤其是碰撞率降低了3倍。

项目主页：https://hgao-cv.github.io/RAD。

引言

端到端自动驾驶（AD）目前是学术界和工业界的热门话题。它通过直接将感官输入映射到驾驶动作，用整体流水线取代模块化流水线，从而提供系统简洁性和泛化能力的优势。大多数现有的端到端AD算法遵循模仿学习（IL）范式，该范式训练神经网络以模仿人类驾驶行为。然而尽管它们简单，但基于IL的方法在实际部署中面临重大挑战。

一个关键问题是因果混淆。IL通过从演示中学习来训练网络复制人类驾驶策略。然而，这种范式主要捕捉观察（状态）和动作之间的相关性，而不是因果关系。因此经过IL训练的策略可能难以识别规划决策背后的真正因果因素，导致捷径学习，例如仅仅从历史轨迹推断未来轨迹。此外，由于IL训练数据主要包含常见的驾驶行为，不足以覆盖长尾分布，经过IL训练的策略往往收敛到平凡解，缺乏对碰撞等安全关键事件的足够敏感性。

另一个主要挑战是开环训练与闭环部署之间的差距。IL策略以开环方式使用分布良好的驾驶演示进行训练。然而，现实世界的驾驶是一个闭环过程，每一步的小轨迹误差会随着时间累积，导致复合误差和分布外场景。IL训练的策略在这些未见过的情况下常常表现不佳，引发了对其鲁棒性的担忧。

解决这些问题的一个直接方法是进行闭环强化学习（RL）训练，这需要一个可以与AD策略交互的驾驶环境。然而，使用真实世界的驾驶环境进行闭环训练存在禁止的安全风险和运营成本。具有传感器数据模拟功能的仿真驾驶环境（这是端到端AD所需要的）通常建立在游戏引擎上，但无法提供仿真的传感器模拟结果。

在这项工作中，我们建立了一个基于3DGS的闭环RL训练范式。利用3DGS技术，我们构建了真实物理世界的仿真数字副本，使AD策略能够广泛探索状态空间，并通过大规模试错学习处理分布外场景。为了确保对安全关键事件的有效响应和对现实世界因果关系的更好理解，我们设计了专门的安全相关奖励。然而，RL训练提出了几个关键挑战，本文解决了这些问题。

一个重大挑战是人类对齐问题。RL中的探索过程可能导致偏离类人行为的策略，破坏动作序列的平滑性。为了解决这个问题，我们在RL训练期间将模仿学习作为正则化项纳入，帮助保持与人类驾驶行为的相似性。如图1所示，RL和IL协同优化AD策略：RL通过建模因果关系和缩小开环差距来增强IL，而IL通过确保更好的人类对齐来改进RL。

另一个主要挑战是稀疏奖励问题。RL经常遭受稀疏奖励和缓慢收敛的问题。为了缓解这个问题，我们引入了与碰撞和偏差相关的密集辅助目标，有助于约束完整动作分布。此外，我们简化并解耦动作空间，以减少与RL相关的探索成本。

为了验证我们方法的有效性，我们构建了一个由多样且以前未见过的3DGS环境组成的闭环评估基准。我们的方法RAD在大多数闭环指标中优于基于IL的方法，特别是在碰撞率方面降低了3倍。

总结来说，本文的主要贡献如下：

我们提出了第一个基于3DGS的RL框架，用于训练端到端AD策略。奖励、动作空间、优化目标和交互机制经过特别设计，以提高训练效率和效果。
我们结合RL和IL协同优化AD策略。RL通过建模因果关系和缩小开环差距来补充IL，而IL在人类对齐方面补充RL。
我们在一个由多样且以前未见过的3DGS环境组成的闭环评估基准上验证了RAD的有效性。RAD在闭环评估中表现更强，特别是碰撞率比基于IL的方法低3倍。

相关工作回顾

动态场景重建

隐式神经表示在新视图合成和动态场景重建中占据主导地位，UniSim、MARS和 NeuRAD等方法利用神经场景图来实现结构化的场景分解。然而这些方法依赖于隐式表示，导致渲染速度较慢，限制了它们在实时应用中的实用性。相比之下，3D 高斯溅射（3DGS）作为一种高效的替代方案出现，提供了显著更快的渲染速度，同时保持了高视觉保真度。最近的工作探索了其在动态场景重建中的潜力，特别是在自动驾驶场景中。StreetGaussians、DrivingGaussians和 HUGSIM展示了基于高斯表示在建模城市环境中的有效性。这些方法在保持可控性的同时实现了卓越的渲染性能，通过显式将场景分解为结构化组件。然而，这些工作主要利用3DGS进行闭环评估。在这项工作中，我们将3DGS纳入RL训练框架。

端到端自动驾驶

基于学习的规划由于其数据驱动的性质和随着数据量增加而表现出的出色性能，最近显示出巨大的潜力。UniAD通过整合多个感知任务来增强规划性能，展示了端到端自动驾驶的潜力。VAD进一步探索了使用紧凑的矢量化场景表示来提高效率。一系列工作也采用了单轨迹规划范式，并进一步增强了规划性能。VADv2 通过建模规划词汇的概率分布，将范式转向多模式规划。Hydra-MDP改进了VADv2的评分机制，通过引入基于规则的评分器提供额外监督。SparseDrive探索了一种替代的无BEV解决方案。DiffusionDrive提出了一种截断扩散策略，将锚定的高斯分布去噪为多模式驾驶动作分布。大多数端到端方法遵循数据驱动的IL训练范式。在这项工作中，我们提出了基于3DGS的RL训练范式。

强化学习

强化学习是一项有前景的技术，尚未被充分探索。AlphaGo和 AlphaGo Zero已经展示了强化学习在围棋游戏中的强大能力。最近，OpenAI O1和 Deepseek-R1利用强化学习开发了推理能力。一些研究也将强化学习应用于自动驾驶。然而，这些研究基于非仿真的模拟器（如CARLA），或者不涉及端到端驾驶算法，因为它们需要完美的感知结果作为输入。据我们所知，RAD是第一个在仿真的3DGS环境中使用强化学习训练端到端AD代理的工作。

RAD算法详解

端到端驾驶策略

RAD的整体框架如图2所示。RAD以多视图图像序列作为输入，将传感器数据转换为场景标记嵌入，输出动作的概率分布，并对动作进行采样以控制车辆。

值函数用于强化学习训练。

训练范式

在策略优化方面，我们迭代执行强化学习训练步骤和模仿学习训练步骤。对于强化学习训练步骤，我们从滚动缓冲区中采样数据，并遵循近端策略优化（PPO）框架来更新AD策略。对于模仿学习训练步骤，我们使用现实世界的驾驶演示来更新策略。在固定数量的训练步骤之后，更新后的AD策略被发送到每个工作进程中，以替换旧策略，从而避免数据收集和优化之间的分布偏移。我们只更新图像编码器和规划头的参数。BEV编码器、地图头和智能体头的参数被冻结。下面将详细介绍强化学习的设计。

AD策略与3DGS环境之间的交互机制

奖励建模

实验结果分析

实验设置

数据集和基准：我们在真实物理世界中收集了2000小时的专家人类驾驶演示数据。通过低成本的自动标注流程，获取这些驾驶演示中地图和智能体的真实标签。在第一阶段的感知预训练中，我们将地图和智能体标签作为监督信息。在第二阶段的规划预训练中，我们使用自车的里程计信息作为监督。在第三阶段的强化后训练中，我们从收集到的驾驶演示中挑选出4305个高碰撞风险的关键密集交通片段，并将这些片段重建为3DGS环境。其中，3968个3DGS环境用于强化学习训练，另外337个3DGS环境作为闭环评估基准。
评估指标：我们使用九个关键指标来评估自动驾驶策略的性能。动态碰撞率（DCR）和静态碰撞率（SCR）分别量化与动态和静态障碍物碰撞的频率，它们的总和表示为碰撞率（CR）。位置偏差率（PDR）衡量自车相对于专家轨迹在位置上的偏差，而航向偏差率（HDR）评估自车与专家轨迹在前进方向上的一致性。整体偏差由偏差率（DR）量化，定义为PDR和HDR之和。平均偏差距离（ADD）量化在发生任何碰撞或偏差之前，自车与专家轨迹之间的平均最近距离。此外，纵向加加速度（Long. Jerk）和横向加加速度（Lat. Jerk）通过测量纵向和横向的加速度变化来评估驾驶的平稳性。CR、DCR和SCR主要反映策略的安全性，而ADD反映自动驾驶策略与人类驾驶员之间的轨迹一致性。

结果消融实验

为了评估RAD中不同设计选择的影响，我们进行了三项消融实验。这些实验研究了强化学习（RL）和模仿学习（IL）之间的平衡、不同奖励源的作用以及辅助目标的效果。

RL-IL比例分析：我们首先分析不同RL与IL步骤混合比例的影响（表1）。纯模仿学习策略（0:1）导致最高的CR（0.229），但ADD最低（0.238），这表明其轨迹一致性强，但安全性较差。相比之下，纯强化学习策略（1:0）显著降低了CR（0.143），但增加了ADD（0.345），这意味着以轨迹偏差为代价提高了安全性。在4:1的比例下实现了最佳平衡，此时CR最低（0.089），同时ADD也相对较低（0.257）。进一步增加RL的主导地位（例如8:1）会导致ADD恶化（0.323）和加加速度升高，这意味着轨迹平滑度降低。
奖励源分析：我们分析了不同奖励组件的影响（表2）。仅使用部分奖励项训练的策略（例如ID 1、2、3、4、5）与完整奖励设置（ID 6）相比，具有更高的碰撞率（CR）。ID 6实现了最低的CR（0.089），同时保持了稳定的ADD（0.257）。这表明，一个平衡良好的奖励函数，包含所有奖励项，能够有效地提高安全性和轨迹一致性。在部分奖励配置中，ID 2省略了动态碰撞奖励项，表现出最高的CR（0.238），这表明缺少该项会显著削弱模型避免动态障碍物的能力，从而导致更高的碰撞率。
辅助目标分析：最后，我们研究了辅助目标的影响（表3）。与完整的辅助目标设置（ID 8）相比，省略任何一个辅助目标都会增加CR，当所有辅助目标都被移除时，CR显著上升。这突出了它们在提高安全性方面的集体作用。值得注意的是，ID 1保留了所有辅助目标但排除了近端策略优化（PPO）目标，其CR为0.187。这个值高于ID 8，这表明虽然辅助目标有助于减少碰撞，但与PPO目标结合时最为有效。

我们的消融实验强调了结合RL和IL、使用全面的奖励函数以及实施结构化辅助目标的重要性。最优的RL – IL比例（4:1）以及完整的奖励和辅助目标设置始终能产生最低的CR，同时保持稳定的ADD，确保了安全性和轨迹一致性。

与现有方法的比较

如表4所示，我们在提出的基于3DGS的闭环评估中，将RAD与其他端到端自动驾驶方法进行了比较。为了进行公平比较，所有方法都使用相同数量的人类驾驶演示数据进行训练。RAD中用于RL训练的3DGS环境也是基于这些数据构建的。与基于IL的方法相比，RAD在大多数指标上表现更优。特别是在CR方面，RAD实现了低三倍的碰撞率，这表明RL帮助自动驾驶策略学习了通用的避撞能力。

定性比较

我们对仅使用模仿学习的自动驾驶策略（无强化后训练）和RAD进行了定性比较，如图5所示。仅使用模仿学习的方法在动态环境中表现不佳，经常无法避免与移动障碍物的碰撞或处理复杂的交通情况。相比之下，RAD始终表现良好，能够有效地避免动态障碍物并处理具有挑战性的任务。这些结果突出了混合方法中闭环训练的优势，它使模型能够更好地处理动态环境。

研究局限与结论

在本研究中，我们提出了首个基于3D高斯溅射（3DGS）的强化学习框架，用于训练端到端的自动驾驶策略。我们将强化学习和模仿学习相结合，其中强化学习有助于建模因果关系、缩小开环差距，而模仿学习则使策略在行为上更贴近人类驾驶。不过，本研究也存在一定的局限性。目前所使用的3DGS环境运行方式缺乏反应性，即其他交通参与者不会根据自车的行为做出反应，仅以日志重放的形式行动。并且3DGS的效果仍有提升空间，尤其是在渲染非刚性行人、未观测到的视角以及低光照场景方面。未来的研究将致力于解决这些问题，并将强化学习提升到新的水平。

2025-02-21 端到端训练新范式！华科&地平线RAD：基于3DGS的闭环强化学习SOTA！性能提升3倍

动态场景重建

端到端自动驾驶

强化学习

发表回复取消回复

Categories

Archives

2025-02-21 端到端训练新范式！华科&地平线RAD：基于3DGS的闭环强化学习SOTA！性能提升3倍

动态场景重建

端到端自动驾驶

强化学习

发表回复 取消回复

Categories

Archives

发表回复取消回复