2024-07-01爆拉UniAD近40%，推理提升3倍！UAD：全新纯视觉端到端SOTA（问鼎nuScenes）

动机来源于对当前E2E AD模型仍模仿典型驾驶堆栈中模块化架构的观察，这些模型通过精心设计的监督感知和预测子任务为定向规划提供环境信息。尽管取得了突破性的进展，但这种设计也存在一些缺点：

1）先前的子任务需要大量高质量的3D标注作为监督，给训练数据的扩展带来了重大障碍；

2）每个子模块在训练和推理中都涉及大量的计算开销。

为此，这里提出了UAD，一种使用无监督agent的E2EAD框架，以解决所有这些问题。首先，设计了一种新颖的角度感知预训练任务，以消除对标注的需求。该预训练任务通过预测角度空间的目标性和时间动态来模拟驾驶场景，无需手动标注。其次，提出了一种自监督训练策略，该策略学习在不同增强视图下预测轨迹的一致性，以增强转向场景中的规划鲁棒性。UAD在nuScenes的平均碰撞率上相对于UniAD实现了38.7%的相对改进，并在CARLA的Town05 Long基准测试中在驾驶得分上超过了VAD 41.32分。此外，所提出的方法仅消耗UniAD 44.3%的训练资源，并在推理中运行速度快3.4倍。创新设计不仅首次展示了相较于监督对手无可争辩的性能优势，而且在数据、训练和推理方面也具有前所未有的效率。

开放和闭环评估的代码和模型将在：https://github.com/KargoBot_Research/UAD 上进行发布。

领域背景介绍

近几十年来，自动驾驶领域取得了突破性的成就。端到端范式，即寻求将感知、预测和规划任务整合到一个统一框架中的方法，已成为一个代表性的分支。端到端自动驾驶的最新进展极大地激发了研究人员的兴趣。然而，之前已在环境建模中证明其效用的手工制作且资源密集型的感知和预测监督子任务，如图1a所示，仍然是不可或缺的。

那么，从最近的进展中获得了哪些启示？我们注意到，其中一个最具启发性的创新在于基于Transformer的pipeline，其中查询作为连接各个任务的纽带，无缝地连接了不同的任务。此外，环境建模的能力也得到了显著提升，这主要归功于监督子任务之间复杂的交互作用。但是，每枚硬币都有两面。与原始设计（见图1a）相比，模块化方法带来了不可避免的计算和标注开销。如图1b所示，最近的UniAD方法的训练需要48个GPU day，并且每秒仅运行2.1帧（FPS）。此外，现有感知和预测设计中的模块需要大量高质量标注的数据。人工标注的财务开销极大地阻碍了带有监督子任务的这种模块化方法利用海量数据的可扩展性。正如大型基础模型所证明的，扩大数据量是将模型能力提升到下一个层次的关键。因此，这里也问自己一个问题：在减轻对3D标注的依赖的同时，设计一个高效且稳健的E2EAD框架是否可行？

本文提出一种创新的端到端自动驾驶（UAD）的无监督预训练任务，展示了答案是肯定的。该预训练任务旨在有效地建模环境。该预训练任务包括一个角度感知模块，通过学习预测BEV（Bird’s-Eye View，鸟瞰图）空间中每个扇形区域的目标性来学习空间信息，以及一个角度梦境解码器，通过预测无法访问的未来状态来吸收时间知识。引入的角度查询将这两个模块连接成一个整体的预训练任务来感知驾驶场景。值得注意的是，方法完全消除了对感知和预测的标注需求。这种数据效率是当前具有复杂监督模块化的方法无法实现的。学习空间目标性的监督是通过将一个现成的开放集检测器的2D感兴趣区域（ROIs）投影到BEV空间来获得的。虽然利用了其他领域（如COCO）手动标注的公开可用的开放集2D检测器进行预训练，但避免了在我们的范式和目标域（如nuScenes和CARLA）中需要任何额外的3D标签，从而创建了一个实用的无监督设置。此外，还引入了一种自监督的方向感知学习策略来训练规划模型。具体来说，通过为视觉观测添加不同的旋转角度，并对预测应用一致性损失，以实现稳健的规划。无需额外的复杂组件，提出的UAD在nuScenes平均L2误差方面比UniAD高0.13m，在CARLA路线完成得分方面比VAD高9.92分。如图1b所示，这种前所未有的性能提升是在3.4倍的推理速度、UniAD的仅44.3%的训练预算以及零标注的情况下实现的。

总结来说，贡献如下：

提出了一种无监督的预训练任务，摒弃了端到端自动驾驶中3D手工标注的需求，使得训练数据扩展到数十亿级别成为可能，而无需承担任何标注负担；
引入了一种新颖的自监督方向感知学习策略，以最大化不同增强视图下预测轨迹的一致性，从而增强了转向场景中的规划鲁棒性；
与其他基于视觉的端到端自动驾驶方法相比，提出的方法在开放和闭环评估中都表现出优越性，同时计算成本和标注成本大大降低。

UAD方法介绍

如图2所示，UAD（端到端自动驾驶）框架由两个基本组件组成：1) 角度感知预训练任务，旨在以无监督的方式将E2EAD（端到端自动驾驶）从昂贵的模块化任务中解放出来；2) 方向感知规划，学习增强轨迹的自监督一致性。具体来说，UAD首先使用预训练任务对驾驶环境进行建模。通过在BEV（鸟瞰图）空间中估计每个扇形区域的目标性来获取空间知识。引入的角度查询，每个查询负责一个扇形区域，用于提取特征和预测目标性。监督标签是通过将2D感兴趣区域（ROIs）投影到BEV空间来生成的，这些ROIs是使用现有的开放集检测器GroundingDINO预测的。这种方法不仅消除了对3D标注的需求，还大大降低了训练成本。此外，由于驾驶本质上是一个动态和连续的过程，因此我们提出了一个角度梦境解码器来编码时间知识。梦境解码器可以看作是一个增强的世界模型，能够自回归地预测未来状态。

接下来，引入了方向感知规划来训练规划模块。原始的BEV特征通过添加不同的旋转角度进行增强，生成旋转的BEV表示和自车轨迹。我们对每个增强视图的预测轨迹应用自监督一致性损失，以期望提高方向变化和输入噪声的鲁棒性。这种学习策略也可以被视为一种专门为端到端自动驾驶定制的新型数据增强技术，增强了轨迹分布的多样性

1）角度感知预训练任务

2）方向感知规划

实验对比

在nuScenes数据集上进行了开环评估实验，该数据集包含40,157个样本，其中6,019个样本用于评估。遵循之前的工作，采用了L2误差（以米为单位）和碰撞率（以百分比为单位）作为评估指标。值得注意的是，还纳入了BEV-Planner中提出的与道路边界的交并比（以百分比为单位）作为评估指标。对于闭环设置，遵循之前的工作，在CARLA模拟器的Town05 基准上进行评估。使用路线完成率（以百分比为单位）和驾驶评分（以百分比为单位）作为评估指标。采用基于查询的view transformer从多视图图像中学习BEV特征。开放集2D检测器的置信度阈值设置为0.35，以过滤不可靠的预测。用于划分BEV空间的角度θ设置为4◦（K=360◦/4◦），默认阈值δ为1.2m。等式8中的权重系数分别设置为2.0、0.1、1.0、2.0、1.0。模型在8个NVIDIA Tesla A100 GPU上训练了24个epoch，每个GPU的bs大小为1。

在nuScenes中的开环规划性能。† 表示基于激光雷达的方法，‡ 表示VAD和ST-P3中使用的TemAvg评估协议。⋄ 表示在规划模块中使用自车状态，并遵循BEV-Planner 计算碰撞率。