2025-02-17 性能跃迁15%！开环端到端SOTA新突破：分合驱动下的运动-语义联合学习框架~

感知环境及其随时间的变化，涉及两种基本但性质不同的信息类型：语义信息和运动信息。以往的端到端自动驾驶研究，将这两种信息都表示在单个特征向量中。然而包含预测和规划等运动任务，往往会损害检测和跟踪性能，这种现象在多任务学习中被称为负迁移。为解决这一问题，我们提出了神经贝叶斯运动解码（Neural-Bayes motion decoding）方法，这是一种新颖的并行检测、跟踪和预测方法，它将语义学习和运动学习分离，类似于贝叶斯滤波器。具体来说，我们采用一组学习得到的运动查询，与检测和跟踪查询并行运行，并共享一组统一的递归更新参考点。此外，我们使用交互式语义解码，来增强语义任务中的信息交换，促进正迁移。在 nuScenes 数据集上的实验表明，该方法在检测性能上提升了5%，跟踪性能上提升了 11%。在不对规划模块做任何修改的情况下，我们的方法在开环规划评估中，实现了当前最优的碰撞率。

论文链接：https://arxiv.org/abs/2502.07631

简介

模块化端到端（E2E）自动驾驶（AD）正受到越来越多的关注，因为它结合了传统流水线方法和严格端到端方法的优点。模块化端到端框架本质上是一个多任务学习挑战。人们期望各种任务能够相互补充，共同提高整个系统的性能。然而设计不佳的多任务学习结构，不仅无法促进相互学习，还可能对单个任务产生不利影响，这种现象被称为负迁移。目前流行的模块化端到端方法通常采用顺序结构（图 1a）。这种结构符合人类在执行驾驶任务时的思维方式，并且在规划性能方面表现出良好的前景。然而，这些方法在目标检测和跟踪方面存在负迁移现象。换句话说，联合训练的端到端模型的感知性能，通常不如那些未进行运动预测和规划任务训练的模型。

我们通过研究学习到的异构信息类型（语义信息和运动信息），分析负迁移的潜在原因。语义信息包括周围物体的类别、车道、路口等，而运动信息描述了环境中随时间发生的变化。顺序方法依次执行这两个过程，首先进行检测和跟踪，然后利用表示物体的特征进行轨迹预测。这种顺序设计迫使特征包含运动信息，损害了最初学习到的语义信息，从而导致感知的负迁移。另一种结构，如图 1b 所示，通过不同的头并行执行大多数任务，例如PARA-Drive和NMP。然而，由于检测和预测仍然是顺序进行的，负迁移问题依然存在。

在这项工作中，我们提出了 DMAD 结构（图 1c），即用于端到端自动驾驶的运动和语义学习的分离与融合。DMAD 通过分离语义学习和运动学习，解决了负迁移问题。此外，它通过融合语义任务，利用了语义任务之间的相关性。

在分离方面，我们提出了神经贝叶斯运动解码器。我们保留一组运动查询，这些查询与目标（检测和跟踪）查询并行地关注鸟瞰图（BEV）特征。运动查询和目标查询的关键区别在于，运动查询被解码为过去和未来的轨迹，而不是带有类别的边界框。运动查询和目标查询共享一组参考点，这些参考点由检测和预测递归更新。这使得两种类型的查询之间，仅通过参考点进行有限的信息交换，且没有梯度流动。此外，我们使用有限差分法，根据预测轨迹计算物体的速度，从而消除了目标查询直接学习速度的需求。通过这种方式，目标查询专注于学习语义和外观特征，而运动查询则专门用于捕捉运动特征。两种类型的异构信息，沿着不同的路径分别学习，有效地防止了负迁移。值得注意的是，据我们所知，DMAD 结构首次将运动学习提升到与语义学习同等的水平，将检测、跟踪和预测视为并发任务。

在融合方面，我们提出了交互式语义解码器，以增强检测和地图分割中语义信息的交换。目标感知和地图感知本质上是相关的任务。以往的方法常常忽略这种联系，通常沿着并行路径执行这两个任务。DualAD 利用了这种相关性，但只允许目标感知从地图中学习。我们的方法使用逐层迭代自注意力机制，实现目标任务和地图任务之间的相互学习，促进正迁移。

基于 UniAD，在 nuScenes 数据集上进行的实验，展示了DMAD结构在减轻负迁移方面的有效性。我们的方法在感知和预测方面，取得了显著的性能提升。在不修改规划模块的情况下，我们展示了改进的感知和预测，如何在开环评估中使规划受益，实现了当前最优的碰撞指标。

总结来说，我们的主要贡献总结如下：

提出了 DMAD，这是一种模块化的端到端自动驾驶范式，它根据任务应学习的信息，对任务进行分离和融合。这种设计消除了不同类型任务之间的负迁移，同时加强了相似任务之间的正迁移。
引入了神经贝叶斯运动解码器，与目标检测和跟踪同时进行轨迹预测，并引入了交互式语义解码器，以增强目标感知和地图感知之间的信息共享。
在nuScenes数据集上，验证了基于 UniAD 的方法的有效性。它在感知和预测结果上有所改进，并在开环规划中实现了当前最优的碰撞率。

相关工作

语义学习：语义学习涵盖目标检测和地图分割。环视相机因其成本效益高和捕捉语义信息能力强而备受青睐。当前最先进的目标检测和地图构建方法基于DETR架构，利用一组查询通过交叉注意力机制从环境特征中提取语义信息。稀疏方法将查询投影到相应的图像特征上以学习语义信息，重点关注相关区域。PETR 系列则将3D位置编码直接嵌入2D图像特征中，无需查询投影。另一类工作是将所有图像特征聚合为鸟瞰图（BEV）特征。随着时间推移传播目标查询可实现多目标跟踪，这一概念也应用于地图感知。需要注意的是，跟踪也是一项与运动相关的任务。然而，在基于查询的跟踪器中，速度是唯一需要学习的运动信息，因此我们将其归类为语义任务。我们采用 BEVFormer 的编码器和 MOTR 的查询传播机制，同时使用全新的解码器。

运动学习：这里的运动指轨迹预测和规划。轨迹预测研究通常将物体历史轨迹的真实值与高清地图作为输入。早期方法将地图和轨迹光栅化为 BEV 图像，使用卷积神经网络（CNNs）提取场景特征。矢量化方法使用多边形和折线表示元素，利用图神经网络（GNNs）或 Transformer 对场景进行编码。

对于规划，模仿学习是一种直接的端到端规划方法，通过训练神经网络直接从传感器数据中规划未来轨迹或控制信号，最小化规划路径与专家驾驶策略之间的差距。许多方法将语义任务作为辅助组件来支持端到端规划，使用 nuScenes 数据集和开环评估。这些方法超出了纯粹的运动学习范畴，将在下一段中探讨。AD-MLP和Ego-MLP仅利用自车过去的运动状态，在开环评估中优于依赖传感器输入的方法。这与我们的观点一致，即语义和运动是异构的：AD-MLP和Ego-MLP可以专注于从专家运动数据中学习，而不受无关语义信息的干扰，从而实现卓越的开环规划性能。

联合语义和运动学习：端到端感知和预测方法通常联合学习语义和运动。开创性工作 FaF 除了检测头外，还使用预测头将物体特征解码为未来轨迹。一些研究通过基于意图的预测和优化对其进行改进。PnPNet和PTP 涉及跟踪，即联合优化检测、关联和预测任务。虽然PTP并行执行跟踪和预测，但由于缺乏并发检测，无法预测新出现的物体，而我们的方法成功克服了这一限制。ViP3D首先将基于查询的检测和跟踪框架扩展到预测。每个查询代表一个物体，并在帧间传播。在每一帧中，借助高清地图将查询解码为边界框和轨迹。

为了纳入规划，NMP通过基于采样的规划模块扩展 IntentNet，在规划过程中利用预测来最小化碰撞。其他研究如将地图感知作为辅助任务。随着基于查询的目标检测器和跟踪器的日益普及，最近的模块化端到端自动驾驶方法与 ViP3D 类似，将物体表示为查询。UniAD 及其变体保留用于跟踪的查询传播机制，旨在显式建模物体的历史运动。相比之下，VAD 和 GenAD 不进行跟踪，而是基于 BEV 特征中嵌入的时间信息预测轨迹。这些方法的主要问题是试图用单个特征（查询）来表示物体的外观和运动。与纯粹的语义学习相比，运动占据了部分特征通道，但对感知没有贡献，导致感知模块出现负迁移。我们的工作有效地解决了这一问题。

详解DMAD方法

图2展示了 DMAD 结构的概述，它基于UniAD构建。从多视角相机图像中提取BEV特征，该特征是所有任务（包括检测、跟踪、建图、预测和规划）的共享特征。我们初始化三种不同类型的查询 —— 目标查询、地图查询和运动查询，它们通过关注 BEV 特征来提取各自任务所需的特定信息。基于所学信息的类型，解码过程分为两条路径。一方面，目标和地图解码在交互式语义解码器中联合执行，在每个解码层，这两种类型的查询会迭代地交换潜在语义信息。

另一方面，运动查询在神经贝叶斯运动解码器中从 BEV 特征中提取运动信息。每个运动查询都直接对应一个目标查询。在每个解码层，运动查询使用目标的坐标作为参考点。解码每一帧后，运动查询预测的未来路径点将作为下一帧中目标查询的参考点。这种递归结构类似于贝叶斯滤波器的行为。参考点的交换始终不涉及梯度。最后运动查询被传递到规划模块。该系统是完全端到端可训练的，运动和语义梯度在不同路径中传播。

交互式语义解码器

神经贝叶斯运动解码器

实验结果分析

我们在 nuScenes 数据集上进行实验，以验证我们方法的有效性。我们从三个方面展示结果。第一部分聚焦于感知（检测、跟踪和建图）。我们对比两个训练阶段的感知性能，以证明我们的方法减轻了负迁移。第二部分，我们评估运动预测和规划。我们验证了在不修改规划模块的情况下，我们的方法对开环规划的益处。最后，我们进行了广泛的消融研究。

训练配置

本小节概述了我们的实验设置与默认 UniAD 训练配置之间的差异，以及这些调整背后的原因。

两阶段训练：我们遵循 UniAD 的两阶段训练方案。在第一阶段，我们训练目标检测、跟踪和建图。在第二阶段，训练所有模块，同时冻结 BEV 特征提取。值得注意的是，在我们的方法中，由于跟踪依赖于单峰预测提供的参考点，因此单峰预测的训练包含在第一阶段。多峰预测仅在第二阶段训练，这与 UniAD 一致。

序列长度：由于自动驾驶是一个与时间相关的任务，模型通常使用连续的帧序列作为训练样本。输入帧的数量，即序列长度 q，直接决定了模型可以捕捉的时间范围，影响相关任务的性能。然而，UniAD 在其两个训练阶段采用了不同的序列长度：第一阶段为 5，第二阶段为 3。第二阶段序列长度的减少，由于时间聚合较少，也降低了感知性能。这干扰了对模型固有负迁移效应的识别。为了减轻这种干扰，我们将两个训练阶段的序列长度标准化为 3。除非另有说明，所有结果表中 UniAD 的性能，均使用官方代码库，在序列长度为 3 的情况下复现。

感知

指标：对于目标检测和跟踪，我们使用 nuScenes 基准中定义的指标。检测的主要指标是 nuScenes 检测分数（NDS）和平均精度均值（mAP）。NDS 通过考虑边界框的检测精度和真阳性误差（如平移、方向和速度误差），对检测性能进行全面评估。对于多目标跟踪，我们报告平均多目标跟踪准确率（AMOTA）和平均多目标跟踪精度（AMOTP）。前者通过考虑 ID 切换、误报和漏报，对跟踪性能进行综合评估，而后者衡量跟踪目标的定位误差。对于建图，我们使用交并比（IoU）指标，评估可行驶区域、车道和分隔线的分割情况。

多目标跟踪：外观和运动是多目标跟踪的两个重要线索。由于使用单个特征向量表示外观和运动，UniAD 在 AMOTA 上出现了 5.3% 的负迁移，在 AMOTP 上出现了 2.3% 的负迁移，如表 2 所示。我们的分离设计使目标查询能够更有效地学习外观。同时，与 UniAD 中基于速度的参考点更新相比，单峰预测提供了更优的跟踪参考点。因此，我们的方法在第一阶段超过了 UniAD，并且在第二阶段不受负迁移的影响，在 AMOTA 上提升了 11.0%，在 AMOTP 上提升了 3.0%。

地图分割：建图是UniAD中唯一没有出现负迁移的感知任务。利用交互式语义解码的优势，我们的方法在可行驶区域、车道、分隔线和路口的 IoU 性能上，略微超过 UniAD（见表 3）。

预测和规划

指标：对于运动预测，我们使用 ViP3D 中提出的端到端感知准确率（EPA）作为主要指标。我们还报告传统的最小平均位移误差（minADE）。然而，由于 minADE 是一个真阳性指标，它不能完全反映端到端系统的预测能力，而 EPA 考虑了误报的数量。对于开环规划，我们使用 1 秒、2 秒和 3 秒内的 L2 距离和碰撞率。

开环规划：我们采用 VAD 的评估方法。尽管该方法受到了一些批评，但据我们所知，它适用于最广泛的方法。我们在表 5 中进行了全面比较。值得注意的是，同时优化 L2 距离和碰撞率具有挑战性。虽然 PARA-Drive 实现了最低的 L2 距离，但它也具有最高的碰撞率。我们的方法显著优于 UniAD，L2 距离降低了 20%，碰撞率降低了 15%。此外，它超过了具有更长序列长度的原始 UniAD 配置，实现了最先进的碰撞率性能。

消融研究

我们对提出的解码器进行了广泛的消融研究，结果如表 6 所示。我们将运动解码器分解为三个组件：运动查询、层间参考点更新和帧间参考点更新。

模型概况：在以多视角相机图像为输入的方法中，主要计算成本集中在图像骨干网络中。相比之下，我们的方法侧重于解码组件，对模型大小和速度的影响最小。与 UniAD 相比，我们的解码器增加了 540 万个参数，在 NVIDIA RTX 6000 Ada 上的推理延迟增加了 0.02 秒。

分离和融合的效果：实验 ID 1、2、3、7 证明了两个提出的解码器的有效性。单独应用交互式语义解码器（ID 2）显著提高了目标检测、跟踪和地图分割的性能。单独应用神经贝叶斯运动解码器（ID 3）显著改善了预测和规划。值得注意的是，ID 3 也显著提高了检测和跟踪性能，这归因于使目标查询无需学习速度，以及单峰预测提供的更高质量参考点。实验 ID 4、5、6、7 展示了神经贝叶斯运动解码器中层间和帧间更新的重要性。不完整的神经贝叶斯运动解码器（ID 4、5、6）会损害检测和跟踪结果。只有同时结合这两种更新，模型才能实现最佳性能。

结论

我们提出了DMAD，这是一种全新的模块化端到端自动驾驶架构，它将语义学习和运动学习分离开来，同时整合了语义任务。通过解耦物体的语义和运动学习，DMAD消除了端到端训练通常对目标检测和跟踪造成的负迁移。此外，我们利用语义任务之间的相关性，在端到端训练过程中促进正迁移。在不修改规划模块的情况下，我们在感知和预测方面的改进直接提升了规划性能，降低了L2距离，并实现了最先进的碰撞率。未来，使用闭环规划来评估我们的方法是很有价值的研究方向。

2025-02-17 性能跃迁15%！开环端到端SOTA新突破：分合驱动下的运动-语义联合学习框架~

发表回复取消回复

Categories

Archives

2025-02-17 性能跃迁15%！开环端到端SOTA新突破：分合驱动下的运动-语义联合学习框架~

发表回复 取消回复

Categories

Archives

发表回复取消回复