在复杂环境中导航需要自动驾驶代理能够熟练地预测未来场景(比如其他代理的行为),同时做出明智的决策。一般而言,传统的预测性和确定性规划方法通常将预测和规划过程分开,从而将自车与社会环境信息隔离开来,并常常导致不符合社会驾驶规范的行为。尽管目前工业界和学术界已经提出了集成预测和规划框架的算法模型来解决这一问题,但这类算法仍然依赖于确定性规划,这对解决代理行为的不确定性、多模态性和相互作用的动态性提出了挑战。
为了克服上述提到的这些挑战,我们建议在规划任务中采用生成-评估的方法。这个方法的关键是将自车代理集成到社会互动环境中,为整个场景中的所有代理生成一系列可能的结果,并使用学习场景评估器来指导决策过程。同时,我们考虑到生成模型在自动驾驶的仿真和预测任务中得到了广泛的应用,但它们在决策任务中的应用相对有限。我们认为是两个主要限制阻碍了生成模型在规划任务中的应用。
- 评估生成的场景并选择符合人类期望和价值观的最佳决策场景非常复杂。为了解决这个问题,我们引入了一个场景评估(奖励)模型,该模型基于从 VLM 反馈中得出的偏好数据进行训练,从而实现更好的决策;
- 与受益于样本多样性的仿真或者场景生成任务不同,使用生成模型进行规划需要用更少的样本生成更可能的未来场景,以最大限度地减少计算开销和运行时延迟。我们通过引入强化学习 (RL) 微调框架来解决这个问题,该框架基于获得的奖励模型来提高扩散生成的质量;
考虑到上述提到的主要限制阻碍以及相应的解决措施,我们提出了Gen-Drive算法模型,一种扩散生成驱动策略以及相应的训练框架。我们设计的基础模型使用 nuPlan数据集进行训练,并在nuPlan闭环规划基准上进行评估。结果表明,我们的扩散驱动策略取得了良好的性能。
完整的Gen-Drive算法框架以及训练过程如下图所示。

Gen-Drive算法模型整体训练框架图
网络模型的整体架构&细节梳理
在详细介绍我们提出的Gen-Drive算法模型细节之前,下图展示了我们提出的Gen-Drive算法模型的整体架构。

提出的Gen-Drive框架的整体结构图
通过上图可以看出,整体而言,我们采用生成(扩散)模型来取代传统范式中的预测规划模型。二者之间的关键的区别在于,自车代理并不是孤立于场景之外的;相反,它被视为场景中不可或缺的一部分,所有代理的行为都相互依赖。为了利用该生成模型进行规划,我们设计了一个场景评估(奖励)模型。该模型使用精选的成对人类偏好数据集进行训练,使其能够直接对生成的场景(规划)进行评分,并促进选择最佳且符合上下文的决策。此外,我们利用奖励模型来微调扩散生成过程,使其朝着生成高回报计划的方向发展。RL微调步骤可以增强整体规划性能并减少大量采样的需要。
场景生成器


场景评估器

基于扩散模型的训练
基础的扩散模型经过训练,可以在各种噪声水平和场景条件下从带噪声的轨迹输入中恢复干净的轨迹。在每个训练步骤中,我们都会从噪声级别k和高斯噪声中进行采样来扰乱原始的动作轨迹。由于该模型预测场景级的轨迹,因此所有目标轨迹都受到相同噪声水平的影响。基础扩散模型的训练损失函数可以表示为:


训练奖励模型
- 成对偏好数据收集:为了构建一个有效的奖励模型,整理全面的数据集是非常有必要的。一种方法是利用人为设计的指标,例如PDM分数。但是,依赖此类指标存在很大的局限性,因为它们可能无法准确反映不同场景中的实际人类价值观。此外,即使对于人类评估者来说,准确地用奖励值标记场景也是一项挑战。或者,我们可以让人类标注员进行成对的比较,确定哪些场景更符合人类偏好。然而,整理大规模奖励数据集会给人类标注员带来巨大的工作量。为了解决这个问题,我们使用VLM来提高流程的效率和可扩展性。VLM辅助奖励标记流程如下图所示。为了增加规划轨迹的多样性,我们首先利用K-means聚类算法从数据中提取32个5秒锚定目标,并采用引导扩散策略为自车代理生成32条不同的规划轨迹,以及模型对场景中其他物体的反应行为。随后,我们对这些场景进行成对采样。我们首先计算规划轨迹之间的差异,然后检查碰撞和过滤掉明显的失败情况。如果这些措施不足以区分,我们将使用GPT-4o提供结论性评估。如下图所示,GPT-4o根据当前场景上下文对两个生成的场景进行了合理的评估。

使用VLM收集规划偏好数据的整体流程


下图显示了一些奖励模型输出的示例,结果表明,我们训练的奖励模型为生成的计划和场景产生了合理的分数。

场景评估输出的示例
微调生成模型


需要注意的是,微调损失会在整个扩散轨迹上累积,并且只有去噪器是可学习的,而编码器在微调期间是固定的。下图展示了使用DDPO的RL微调算法流程。

实验结果&评价指标
整体实验结果分析
为了验证我们提出的算法模型的有效性,我们实施了不同模型的闭环规划实验,结果如下表所示。

此外,为了更加直观的展示生成过程中的一些典型场景,微调后的策略表现出更好的规划性能,我们也进行了相关的可视化。

规划过程示意图
通过相应的实验和可视化结果可以看出,生成和评估优于单样本推理。多样本规划方法通过批处理并行生成 16 个场景,并使用学习到的奖励模型选择最佳场景。该方法增强了生成计划的多样性,从而提高了整体规划得分。此外,具有我们学习到的奖励模型的生成规划器在规划方面优于基于 PDM 分数的评估器。此外,微调可提高性能。规划效率仍然在很大程度上取决于生成质量,我们证明 RL 微调可以显著提高质量和性能。值得注意的是,即使使用单样本方法,微调策略的整体规划得分也优于没有微调的多样本方法。此外,使用我们学习到的奖励模型进行微调比使用基于 PDM 的评分器效果更好。我们也注意到,与基于学习的预测规划器相比,我们的模型通过使用先生成后评估的方法表现出卓越的性能。然而,使用基于规则的轨迹生成器和评分器的PDM-Closed规划器获得了最高分。值得注意的是,它针对 nuPlan 指标进行了优化,这可能缺乏人类相似性和对现实世界场景的适应性。
消融实验结果分析
首先,我们先分析了建模目标数量的影响。数量范围从 1到 100,相关的实验结果下表所示。我们在模型训练中调整建模目标的数量,并在测试中使用单样本生成。结果表明,仅生成自车的规划会导致性能较差,主要是因为在某些情况下缺乏运动。相反,过多的建模目标(例如 100)也会导致性能和运行效率下降。因此,在保持运行效率的同时,对 50 个自车和周围对象进行建模表现最佳。

此外,我们也对RL微调阶段训练步骤对结果的影响进行了实验,并在测试中采用了多样本生成和评分方法,相关实验结果如下表所示。结果表明,1000 个微调步骤可实现最佳规划指标,超过此指标,微调策略的性能就会下降。这是 RLHF 框架中的一个常见问题,因为策略可能会利用奖励函数并产生不合理的行为。因此,我们将 RL 微调阶段限制为 1000 个步骤,以防止性能下降。

结论
在本文中,我们提出了Gen-Drive算法框架,标志着自动驾驶的决策向生成-评估的方式进行转变。实验结果表明,与其他基于学习的规划方法相比,我们的模型通过适当的奖励建模表现出更优异的性能,并且通过 RL 微调得到了进一步的增强。

发表回复