2025-06-12 端到端SOTA！中山大学GaussianFusion：高斯建模让自动驾驶感知-规划一体化效率飙升~

原文链接：https://mp.weixin.qq.com/s/gZ4fFcJxH_mKbEsEM1FrJg

中山大学团队的工作，开闭环的效果都还不错。利用高斯表征和扩散端到端的方法结合在一起，最终效果比DiffusionDrive要好一些。

多传感器融合对于提高端到端自动驾驶系统的性能和鲁棒性至关重要。现有方法主要采用基于注意力的扁平化融合或通过几何变换的鸟瞰图融合。然而，这些方法通常在可解释性上有限或计算开销较大。本文中，我们介绍了GaussianFusion，这是一种基于高斯的端到端自动驾驶多传感器融合框架。我们的方法使用直观紧凑的高斯表示作为中间载体，以聚合来自不同传感器的信息。具体来说，我们在驾驶场景中均匀初始化一组二维高斯分布，每个高斯分布由物理属性参数化，并配备显性和隐性特征。这些高斯分布通过集成多模态特征逐步优化。显性特征捕捉交通场景的丰富语义和空间信息，而隐性特征则提供对轨迹规划有益的补充线索。为了充分利用高斯分布中的丰富空间和语义信息，我们设计了一个级联规划头，通过与高斯分布的交互迭代地精炼轨迹预测。在NAVSIM和Bench2Drive基准上的广泛实验表明了所提出的GaussianFusion框架的有效性和鲁棒性。

论文链接：https://arxiv.org/abs/2506.00034
开源代码：https://github.com/Say2L/GaussianFusion

引言

端到端（E2E）自动驾驶因其通过深度学习直接将传感器输入映射为驾驶动作的潜力而受到越来越多的关注。这一范式减少了系统复杂性，并实现了跨任务的联合优化。然而，仅依赖单一传感器往往限制了系统处理多样化和挑战性驾驶场景的能力。为了解决这一局限性，多传感器融合变得至关重要，因为它允许模型利用来自不同传感器（如摄像头、激光雷达和雷达）的互补信息。这种集成增强了感知的可靠性，并为学习稳健的驾驶策略提供了更丰富的输入。

在端到端自动驾驶中现有的多模态融合策略大致可分为两类：扁平化融合和鸟瞰图（BEV）融合。扁平化融合方法通常将传感器特征（如图像和激光雷达点云特征）压缩到一个共享的潜在空间中，在该空间中使用注意力机制进行特征交互，如图 1(a) 所示。这些方法因其灵活性和效率而具有吸引力，通常只需要最小的几何校准。然而，由于缺乏明确的空间定位在三维空间中的解释性有限，使得它们在需要精确空间推理的场景中效果不佳。

相比之下，BEV 融合方法将多模态特征投影到一个通用的 BEV 坐标系中，利用几何先验对齐来自不同传感器的数据，如图 1(b) 所示。这促进了结构化的空间理解，并提高了下游感知任务（如三维物体检测和地图构建）的性能。然而，由于 BEV 表示的密集性质，特别是当涉及高分辨率输入或细粒度特征时，BEV 融合会带来显著的计算和内存开销。因此，在复杂的驾驶环境中开发能够在空间感知、效率和可扩展性之间取得平衡的融合框架仍然是一个持续的挑战。

最近，三维高斯分布在基于相机的三维场景表示和重建中获得了关注，因为它们具有物理可解释性、紧凑性和固有的稀疏性。这些特性使它们成为自动驾驶中多传感器融合的有希望的候选者，在这里效率和结构化的空间理解是关键。然而，在这个背景下应用高斯表示引入了几个挑战。首先，由于现有的 E2E 驾驶数据集中缺乏细粒度的三维场景注释，很难有效地监督高斯参数。其次，现有方法主要集中在三维场景表示，留下了其在运动规划任务中的适用性未充分探索。第三，高效地利用高斯表示进行准确的轨迹生成需要仔细的架构设计。解决这些问题对于在 E2E 自动驾驶框架中启用基于高斯的表示至关重要。

考虑到上述创新和考虑因素，我们提出了 GaussianFusion，一种基于高斯的用于 E2E 自动驾驶的多传感器融合框架。我们的方法利用二维高斯来表示交通场景，与三维高斯相比提高了效率。值得注意的是，二维高斯只需要从 BEV 语义图中获得监督，这在 E2E 数据集中广泛可用。为了将融合过程定制到运动规划任务，我们设计了一个双分支融合管道。第一个分支捕获每个高斯的多传感器输入的局部特征，主要用于交通场景重建。第二个分支从相同的输入中聚合全局规划线索，并专门用于运动规划。此外，为了充分利用高斯表示的表征能力，我们引入了一个级联规划模块，该模块通过以级联方式查询高斯表示来精炼锚定轨迹。

我们在面向规划的 NAVSIM 数据集上评估了 GaussianFusion。使用与之前方法一致的 ResNet-34 骨干网络，我们的方法达到了 85.0 EPDMS和 88.9 PDMS，显著超越了当前最先进的方法。为了进一步评估我们框架的泛化性和鲁棒性，我们在闭环基准 Bench2Drive上进行了实验，结果一致表明了 GaussianFusion 的有效性。本工作的主要贡献总结如下：

首次将高斯表示引入到用于 E2E 自动驾驶的多传感器融合领域，并提出了一种针对以规划为中心的任务的双分支融合管道。
设计了一个专门适应于高斯表示的级联规划头，该头通过分层高斯查询迭代地精炼轨迹。
在开环 (NAVSIM) 和闭环 (Bench2Drive) 基准上的广泛评估表明了 GaussianFusion 的优越性能和鲁棒性。

算法详解

高斯初始化

高斯编码器：来自多传感器融合的高斯

为了学习有意义的高斯表示，我们首先利用两个独立的骨干网络从图像和LiDAR点云中提取多尺度特征。然后这些特征用于迭代地优化高斯的物理属性和隐藏特征。每次迭代包括一个点交叉注意力模块、一个图像交叉注意力模块、一个高斯自注意力模块和一个优化模块。每个高斯的隐藏特征分为显性和隐性两部分，各自承担不同的角色。显性特征通过显性的几何变换从多传感器输入的局部区域导出，并负责更新高斯的物理属性。相比之下，隐性特征与全局多传感器特征交互，不依赖于几何变换，仅用于轨迹规划。

point交叉注意力：来自点的高斯

图像交叉注意力：来自图像的高斯

高斯优化模块

高斯解码器：高斯到场景推理

为了有效调节二维高斯，我们设计了一个包含两个组件的高斯解码器：地图构建和级联规划。地图构建模块显式重建交通场景，提供反向传播梯度以指导高斯编码器优化物理属性和显性特征。按照[16]，我们使用概率高斯叠加实现此模块；更多细节见附录A。级联规划模块以级联方式生成轨迹预测，其中每个后续输出基于前一个进行优化。除了利用显性特征外，它还结合了从高斯隐性融合分支获得的隐性特征。

级联规划

实验结果分析

在NAVSIM和Bench2Drive基准上评估模型。

实现细节

对于 NAVSIM 基准，我们使用 NAVSIM 训练分割进行训练。对于 Bench2Drive 基准，训练数据遵循 TF++的 “12 only” 设置。我们利用前、左前和右前摄像头以及 LiDAR 点云输入。相机图像裁剪至分辨率为 448 × 250。LiDAR 点投影到 BEV 平面，方法与 TransFuser相同。为了与先前工作进行公平比较，我们采用 ResNet-34作为主干网络。在我们的主要实验中，高斯数设置为 512，每个高斯特征维度为 128。我们采用 4 个 GaussianEncoder 块和 2 个级联规划块。锚定轨迹的数量按照 [30] 设置为 20。值得注意的是，为了提高效率，在推理过程中，GaussianDecoder 中的地图构建模块被断开。训练使用 AdamW 优化器进行，共 50 个周期，权重衰减为 1 × 10−4，最大学习率为 6 × 10−4，并遵循余弦退火调度进行学习率衰减。超参数分析见附录 C。

与SOTA对比

NAVSIM 上的结果

我们在 NAVSIM navtest 分割上对 GaussianFusion 进行基准测试，与领先的最先进（SOTA）方法进行比较。为了确保公平比较，所有模型均使用 ResNet-34作为主干网络。如表 1 所示，我们的方法实现了 85.0 EPDMS。需要注意的是，EPDMS 通过引入更细微的驾驶标准，比 PDMS 提出了更严格的挑战。进一步观察发现，大部分提升来自于可驾驶区域合规性（DAC）和车道保持（LK）子指标，这表明 GaussianFusion 在复杂环境中能够实现更稳定和情境感知的行为。同样，我们的方法显著优于以前的方法，尤其是在 DAC 和自车进展（EP）等关键子指标上。这些结果一致地证实了我们的方法在多种评估协议下的鲁棒性和有效性。

Bench2Drive 上的结果

我们进一步在闭环基准 Bench2Drive 上进行实验，以将我们的方法与现有的 SOTA E2E 方法进行比较。如表 2 所示，我们的方法 GaussianFusion 实现了最佳的整体性能（79.4 DS），超过了所有基于学习的基线方法。它在各种任务中表现出均衡的优势，特别是在超车和交通标志合规性方面。与基于规则的特权方法 PDM-Lite 相比，我们的方法仍然在一定程度上有所不足，这表明端到端自动驾驶方法仍有很大的改进空间。

消融研究

不同组件的效果

为了了解 GaussianFusion 中每个设计选择的影响，我们通过逐步添加高斯显性融合（Gaussian Exp. Fusion）、高斯隐性融合（Gaussian Imp. Fusion）、级联规划头（Cascade Planning）和代理预测头（Agent Pred.）到 TransFuser 基线中来进行受控消融研究。结果如表 3 所示。引入高斯显性融合导致 EPDMS 显著增加了+2.4，同时减少了参数数量。添加高斯隐性融合进一步将性能提升至 84.5 EPDMS，仅略微增加参数数量。此外，包含级联规划头将得分推高至 85.0 EPDMS，设置了一个新的记录，总参数数量与基线相当。这些发现证实了我们的架构组件在不显著增加模型复杂性的情况下提供强大的性能提升。最后，我们观察到加入代理预测头会降低性能。我们认为这是因为代理预测任务未能为高斯优化过程提供有效的指导，反而引入了模糊性——我们称之为高斯混淆。鉴于语义地图已经编码了足够的代理相关信息，我们在最终设计中移除了代理预测头。

不同多传感器融合方法

表 4 展示了各种多传感器融合方法在模型参数、语义地图构建、轨迹规划和推理延迟方面的综合比较。延迟是通过 RTX3090 测量的。为了确保公平比较，所有方法都采用相同的主干网络和任务头。我们提出的方法 GaussianFusion 在语义地图构建和轨迹规划方面均取得了最佳性能，同时使用最少的参数，突出了我们的融合策略的有效性和高斯表示在自动驾驶中的潜力。受益于高斯表示的稀疏性，GaussianFusion 在推理速度上也优于密集 BEV 融合方法。然而，尽管使用较少的参数，其延迟仍然高于扁平融合方法。我们将此归因于我们实现中的定制 CUDA 操作，目前这些操作不如原生 PyTorch 操作优化。

定性比较

为了直观理解高斯编码器中的优化过程，我们可视化了不同优化阶段的高斯空间分布，如图 3 所示。在初始阶段，高斯在整个场景中均匀分布。随着优化的进行，它们逐渐向前景区域收敛。这种行为突出了高斯表示的优势，它提供了比传统密集 BEV 地图更紧凑和灵活的替代方案。更多的高斯可视化显示在附录的图 5 中。我们还展示了在各种交通场景下的预测自车轨迹，如图 4 所示。为了定性评估预测准确性，我们将这些轨迹与地面实况数据进行了比较。在图 4 的最左侧场景中，车辆在没有信号引导的情况下进行无保护左转——这是一个具有挑战性的情况。我们的方法仍然预测出与地面实况非常接近的轨迹。此外，如图 4 的两个最右侧场景所示，我们的方法即使在密集交通条件下也能生成准确的轨迹计划，进一步证明了其鲁棒性和可靠性。

结论

在这项工作中，我们提出了 GaussianFusion，一种基于高斯的端到端自动驾驶多传感器融合框架。通过利用紧凑且灵活的二维高斯表示，我们的方法在空间感知和计算效率之间取得了平衡。双分支融合架构捕捉了来自多模态输入的局部细节和全局规划线索，而级联规划模块逐步细化轨迹预测。在 NAVSIM 和 Bench2Drive 基准上的实验表明，GaussianFusion 在高效规划性能方面显著提高了性能。这些结果突出了高斯表示在端到端自动驾驶系统中高效且可解释的传感器融合的潜力。GaussianFusion 的局限性在于其定制的 CUDA 操作尚未完全优化。在未来的工作中，我们计划进一步优化这些操作或用已建立的神经网络库的操作替换它们。

2025-06-12 端到端SOTA！中山大学GaussianFusion：高斯建模让自动驾驶感知-规划一体化效率飙升~

发表回复取消回复

Categories

Archives

2025-06-12 端到端SOTA！中山大学GaussianFusion：高斯建模让自动驾驶感知-规划一体化效率飙升~

发表回复 取消回复

Categories

Archives

发表回复取消回复