2025-01-14 七大任务SOTA！北大&清华GPD-1：专为智驾设计的生成式预训练

自动驾驶模拟器在开发和验证驾驶系统中扮演着至关重要的角色，对于测试复杂行为、理解交互动态和确保对潜在故障的鲁棒性起着非常重要的作用，这可以帮助实现更加安全和可靠的自动驾驶系统。然而，现有的自动驾驶场景演化方法通常是专项的，例如地图生成、运动预测或轨迹规划。考虑到这些方法通常只关注一个特定的任务，目前还没有一个统一的框架将这些方面整合到一个整体模型中进行整体模拟。作者提出了一个统一的生成预训练驾驶（GPD-1）模型来统一这些元素。他们将地图、智能体和自我车辆编码为一组统一的token标记，使其能够将场景演化表述为场景标记的生成预测。

论文链接：https://arxiv.org/pdf/2412.08643
项目链接：https://wzzheng.net/GPD/

作者采用了自回归transformer架构，并使用场景级注意力掩码，以实现场景内双向交互，允许模型有效地捕获自我、智能体和地图标记之间的依赖关系。对于自我和智能体标记，作者提出了一个分层位置标记器，有效地编码BEV位置和航向。位置标记器将连续的智能体位置转换为离散标记，显著减少了特征空间中的噪声。对于地图标记，作者利用向量量化自编码器（VQ-VAE）将自我中心的语义地图压缩成离散标记。通过将地图信息表示为离散标记，消除了预测连续地图坐标的复杂性，简化了学习过程并增强了泛化能力。

为了展示作者的GPD-1模型的有效性，作者进行了一系列的挑战性实验，跨越了多种任务。如图1所示，作者的模型无需任何微调，就能够执行场景生成、交通模拟、闭环模拟和运动规划。再通过进一步的微调，GPD-1可以在下游任务上实现最先进的性能，特别是在nuPlan基准的运动规划任务上。

方法论

2D地图场景标记器

场景建模的生成Transformer

在自动驾驶中，对整个场景的演化进行建模对于预测智能体之间的动态交互和理解未来结果至关重要。作者采用了自回归Transformer架构来处理场景建模，灵感来自GPT的顺序生成框架。作者的方法结合了场景级注意力掩码，允许每个帧内标记之间的双向交互，允许全面理解空间和时间关系，如图3所示。

GPD-1：生成预训练驾驶

作者的生成预训练驾驶（GPD-1）模型使用两阶段训练过程来构建自动驾驶模拟和规划任务的坚实基础。作者首先训练地图VQ-VAE潜在标记器，采用L1误差用于地图线位置和二元交叉熵（BCE）来评估地图线可见性，如SLEDGE中定义。此外，为了提高码本的稳定性和精度，作者包括均方误差

（MSE）损失，以鼓励准确的量化。这一阶段创建了一个高保真度的地图潜在空间，准确编码空间结构，为场景生成奠定了坚实的基础。

在第二阶段，训练好的地图标记器被冻结，并用于提取每帧的地图潜在表示，这些表示作为进一步训练的输入和真实情况。交叉熵（CE）损失用于匹配生成的标记与它们正确的码本条目，确保准确的地图重建。作者将自我和智能体标记同等对待，使用平滑L1损失来计算位置误差，以及BCE损失用于二元分类

存在性。这种结构化训练使模型能够捕获空间和时间场景动态，实现跨多样化场景的一致场景建模。

场景生成：GPD-1通过初始化场景设置并预测智能体、自我车辆和地图特征的空间和时间演变来自动生成完整场景。这项任务对于从最小的初始输入创建多样化的驾驶场景至关重要。

交通模拟：通过用真实的地图和初始智能体状态初始化模型，GPD-1准确预测交通如何在帧间演化。这种模拟能力对于在动态环境中评估和训练自动驾驶模型至关重要，其中理解交通流动是基础。

闭环模拟：给定真实的地图和自我轨迹，模型可以动态适应智能体行为以响应自我车辆的移动。这种设置与nuPlan挑战赛的闭环交互设置紧密对齐，其中智能体对自我行为的反应是通过模型而不是传统的基于规则的算法生成的。

运动规划：GPD-1支持自我轨迹规划，根据给定的智能体和地图信息生成路线。这种规划能力与实际自动驾驶需求紧密对齐，提供了一种数据驱动的替代传统规划方法。

条件生成：GPD-1还可以处理条件生成，允许用户定义特定条件，如初始智能体轨迹、智能体数量或基于向量的地图特征。有了这些约束，GPD-1可以自动生成兼容的场景演变，实现针对特定场景的驾驶条件的模拟，以实现细粒度控制。

微调后的性能提升。在专门的数据集或特定任务场景上进行微调，可以进一步提升GPD-1在特定任务上的性能，特别是在复杂的规划任务中。微调使GPD-1能够生成延长、精确的轨迹，满足nuPlan规划挑战赛等挑战的严格标准，其中闭环和开环性能对于准确的轨迹预测至关重要。

生成预训练为GPD-1提供了灵活、稳健的结构，适应自动驾驶中的广泛任务。从场景生成到细致的条件模拟，GPD-1作为现实、响应性强的驾驶模拟和轨迹规划的全面解决方案，满足自动驾驶研究和开发的基本需求。

实验及结论

作者在nuPlan数据集上进行了广泛的实验。nuPlan是一个大规模闭环规划基准测试。使用官方评估指标来评估作者GPD-1的规划性能，包括开环得分（OLS）、非反应性闭环得分（NR-CLS）和反应性闭环得分（R-CLS）。R-CLS和NR-CLS使用相同的计算方法。R-CLS在模拟期间包括使用智能驾驶模型（IDM）进行背景交通控制。闭环得分是一个从0到100的复合得分，它考虑了遵守交通规则、人类驾驶相似性、车辆动力学

、目标达成以及其他特定于场景的指标。

主要结果

为了展示GPD-1的通用性，作者在没有任何微调的情况下将其用于多个下游任务。如表1所示，作者展示了模型在各种设置下的性能。在这些实验中，作者提供了固定的2秒地图和智能体数据作为初始信息，并使用不同的提示设置。总体而言，自回归模型

在迭代次数较少时表现最佳。例如，预测未来5秒只需要50次迭代，并能产生强大的结果。然而，随着迭代次数的增加，累积误差以大约二次方的速率增长。

结果与分析

nuPlan运动规划挑战赛。作者的模型的多功能表示使其能够无缝应用于各种下游任务，即使是最小的微调也可以大大提升其在特定任务上的性能。如表2所示，作者仅添加了一个解码器层来解码自我标记，以满足nuPlan挑战的要求。不依赖复杂的数据增强或后处理技术，作者的模型就实现了与PlanTF相当的性能，甚至在某些指标上超过了它。

地图预测。在地图预测实验中，作者在两种设置下评估了模型： 1）提供智能体和自我车辆的真实地图来生成地图 2）仅提供自我的真实地图，并使所有其他智能体对模型不可见以生成地图。这个实验验证了条件生成能力。如表3所示，当仅提供自我作为输入时，地图预测质量显著提高。这是因为地图以当前自我车辆为中心，使其与自我的状态高度相关。

量化的影响。表4展示了量化智能体状态对自我车辆和智能体每帧性能的影响。作者可以看到，量化的离散智能体信息与离散地图共同降低了特征空间的学习复杂性。

可视化。图4显示了在复杂场景下场景生成设置下的性能。结果表明，即使在非常复杂的道路条件下，地图也能平滑生成。在两个转弯场景中，自我车辆和智能体都遵循自然轨迹，以相对稳定的速度行驶。同样，在两个直行驾驶场景中，模型有效地捕获了周围智能体的行为（例如，转弯、驾驶和减速），同时保持稳定的前进速度。

图5展示了在更复杂的交叉转弯场景下不同设置下的性能。地图生成的质量显著令人满意，对于智能体和自我车辆，除了明确使用真实数据的情况外，所有任务的性能都与真实情况非常匹配。这种一致性突出了作者模型的鲁棒性。

结论

在本文中，作者介绍了自动驾驶的生成预训练（GPD-1），它模型化了自我移动、周围智能体和场景元素的联合演化。作者采用了分层智能体标记器和向量量化地图标记器来捕获高级空间和时间信息，而自回归Transformer与场景级注意力预测多个驾驶任务中的未来场景。结果表明，GPD-1有效地推广到多样化的任务，如场景生成、交通模拟和运动规划，无需额外的微调。作者认为GPD-1代表了朝向完全集成的、可解释的自动驾驶框架的基础步骤。

2025-01-14 七大任务SOTA！北大&清华GPD-1：专为智驾设计的生成式预训练

相关工作

离散标记在自动驾驶中的应用

数据驱动的自动驾驶模拟技术