2025-08-14 全面超越DiffusionDrive！中科大GMF-Drive：全球首个Mamba端到端SOTA方案

原文链接：https://mp.weixin.qq.com/s/umJR_-7HFtP-aDIFIm65Pg

端到端自动驾驶已经成为行业中普遍认同的方案，它能够直接将原始传感器输入映射成为驾驶动作，从而减少对多阶段中间表示的依赖以及信息损失。最新的工作中，比如像 DiffusionDrive 和 GoalFlow 这样的扩散式规划模型，展现出了在生成多样且高质量驾驶轨迹方面的强大能力。展开来说，VLA的架构也可以基于VLM+轨迹生成的模块实现，所以近来的很多工作都聚焦在端到端和、VLA两个大方向上。

然而，尽管轨迹规划模块取得了显著进步，一个关键的瓶颈依然没有被充分解决：多模态融合架构（multi-modal fusion architecture），也就是 如何整合不同传感器的异构输入。当前的主流方法大多采用 TransFuser 风格的传感器融合架构，这类方法通常是直接将图像特征与 LiDAR 特征拼接，然后通过自注意力机制进行处理（如图 1a）。

这种方式主要存在两个问题：

信息损失：传统基于直方图（histogram-based）的 LiDAR 预处理方法，会将空间网格中点的高度进行平均，从而丢失了关键的 3D 几何信息，比如物体形状和结构的重要线索。这会限制模型的感知能力。
缺乏空间感知：标准的自注意力机制在处理鸟瞰图数据时缺少足够的空间先验，它会对所有位置均匀地关注，而忽略了驾驶场景中的重要空间规律，例如前方区域通常比后方区域更重要，近处的障碍物比远处的更需要优先处理。

作者的实验还揭示了一个矛盾：相比单模态架构，现有的多模态融合架构在性能上提升有限，这说明 TransFuser 风格的方法更像是在做简单的特征拼接，而不是结构化的信息整合。

为了解决这些问题，中科大和中国矿业大学的团队提出了 GMF-Drive，它包含三个模块：

数据预处理模块：将原始点云处理为增强几何信息的 14 维柱状表示，保留丰富的几何场景信息。
感知模块：引入 GM-Fusion 模块，利用具备空间感知能力的状态空间模型（Spatial-aware State Space Model, SSM），在保持全局感受野的同时实现线性 O(N)复杂度的空间建模。
轨迹规划模块：采用类似 DiffusionDrive 的截断扩散策略（truncated diffusion），结合锚点轨迹（anchor trajectories）生成合理的驾驶轨迹。

基于上述分析，作者的主要贡献如下：

设计了一种几何增强的点云表示，并证明了它在多模态融合中的有效性。
提出了一种新型的融合架构 GM-Fusion，基于空间感知的状态空间模型（BEV-SSM），在自动驾驶任务中实现了比传统 Transformer 更优的精度。
在 NAVSIM 基准测试中通过大量消融实验验证了各个组件（几何增强柱状表示、BEV-SSM、分层可变形跨模态注意力）的有效性，证明它们对最终的高精度结果都有显著贡献。

论文题目: GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
论文链接：https://arxiv.org/pdf/2508.06113

相关工作回顾

端到端自动驾驶

端到端自动驾驶的发展已经从早期基于 CNN 的方法，演进到更先进的多模态系统。早在 1997 年，Chua 等人就证明了 CNN 可以直接将图像映射到转向指令，但这些方法的泛化能力十分有限。条件模仿学习（Conditional Imitation Learning）提升了性能，例如 CILRS 利用导航指令来引导驾驶策略，而 LBC 则引入了带有“特权信息”的教师-学生学习框架。

将表示方式转向鸟瞰图是一个重要的里程碑。例如 TransFuser 将图像和 LiDAR 数据结合在一起，通过 Transformer 进行融合，启发了许多新的 BEV 方法。UniAD 将多个感知任务整合到一起以提升规划效果，VAD 引入了高效的向量化表示。近期的研究重点转向多模态决策，例如 SparseDrive 探索稀疏表示，而 GoalFlow 可以生成多样化的轨迹。然而，大多数方法依然依赖计算量庞大的 Transformer 架构，作者的工作则尝试用更高效的模型来解决这个问题。

自动驾驶中的多模态融合

多模态融合在自动驾驶中的方法主要分为三类：早期融合（early fusion）、后期融合（late fusion）、以及中期融合（intermediate fusion）。

早期融合：在原始传感器数据阶段直接融合，但不同模态数据格式差异较大，处理困难。
后期融合：在高层决策阶段进行融合，但错过了跨模态特征交互的机会。
中期融合：目前最常用的方法，在中间特征层面使用 Transformer 进行结合。

例如，TransFuser 在多个尺度上融合图像和 LiDAR 数据，通过注意力机制实现，性能优于早期的基于几何的方法。之后的 BEVFusion 和 FUTR3D 在共享特征空间中提升了融合效果。但这些方法依赖计算量庞大的自注意力机制，迫使它们只能使用低分辨率特征，从而丢失了重要细节。

作者的工作不同于以 Transformer 为核心的范式，提出了 GM-Fusion，利用具备空间感知能力的状态空间模型（Spatial-aware State Space Model, SSM），在保持长程依赖建模能力的同时，实现了线性复杂度的计算。

GMF-Drive算法详解

模型概述

GMF-Drive（见图 2）使用两个独立的 ResNet-34 主干网络分别对相机图像和几何信息丰富的 14 维 LiDAR 柱状表示进行编码。在四个尺度上，作者的 GM-Fusion 模块通过通道注意力（Channel Attention）、BEV-SSM（用于线性复杂度的空间建模）以及 分层可变形跨注意力（Hierarchical Deformable Cross-Attention, HCA） 来融合多模态信息。融合后的特征与自车状态及锚点轨迹结合后，输入到扩散解码器，通过截断扩散生成最终轨迹。

几何增强的柱状表示

Gated Mamba Fusion模块

GM-Fusion 模块通过三部分来整合多模态特征：

门控通道注意力（Gated Channel Attention）：对齐并融合相机与 LiDAR 特征。
BEV-SSM：利用方向感知（direction-aware）与双扫描模式（dual-pattern scanning）并结合距离衰减（distance decay）高效建模空间依赖。
分层可变形跨注意力（HCA）：查询多尺度图像特征，进一步精细化融合结果。

BEV 位置编码

标准位置编码往往不能有效表示自动驾驶场景中复杂的空间结构。作者提出一种 自车中心极坐标系 的编码方法，结合距离和方向信息。对于每个空间位置，作者计算其与自车原点的欧几里得距离和方位角（使用 atan2 计算）。这些极坐标通过多频率正弦编码（sine-cosine）映射到高维空间，波长呈指数衰减。
关键创新在于维度交错（dimensional interleaving），即将距离和角度编码交替排列，而不是分块拼接，从而在每个特征层都强制联合学习空间大小与方向信息。

双扫描模式

为了将二维 BEV 特征序列化供顺序处理，作者使用两种互补扫描模式：

光栅扫描（Raster Scan）：按行依次从左到右扫描，适合捕捉沿行驶方向的长程依赖。
Z 字扫描（Zigzag Scan）：蛇形路径扫描，保持局部邻近像素在序列中的连续性，有助于保留局部几何细节。

两者互补，使模型既能获得全局场景结构（光栅扫描）又能保留局部细节（Z 字扫描），BEV-SSM 会并行处理并自适应融合它们。

AwareSSM 模块

实验结果分析

实验设置

作者在公开可用的 NAVSIM 数据集上进行了实验。为了确保公平比较，作者采用了与 DiffusionDrive 相同的评估指标。GMF-Drive 基于 DiffusionDrive 的代码库，将其中的 TransFuser 模块替换为作者的 GM-Fusion 架构。

定量比较

如表 1 所示，GMF-Drive 在 NAVSIM navtest 集上的 PDMS 得分达到 88.9，在 ResNet-34 主干和相同传感器输入条件下，较之前最佳的 DiffusionDrive 提高了 0.8 分，证明了 GM-Fusion 架构相较于传统基于 Transformer 的融合方式的优越性。

作者方法的优势在一些关键子指标上尤为明显。GMF-Drive 在可行驶区域符合率（DAC）上得分 97.3（相比 DiffusionDrive 提升 +1.1），验证了保留精细空间特征能够提高场景理解能力。它还在自车推进率（EP）上获得了 83.3 的最高分，表明高效的融合提升了安全性和驾驶效率。

此外，GMF-Drive 显著超越了基于轨迹词汇的方法。它比一个经过大量调优、额外使用规则监督和加权置信度后处理的 Hydra-MDP 变体高出 2.3 PDMS 分。

消融实验

整体系统组件分析

如表 2 所示，基线 DiffusionDrive 模型经过多个关键创新的逐步增强，每一步都在评估指标上带来了可衡量的性能提升。

首先，将基线 LiDAR 编码替换为作者的 8 维 pillar 表示，使得 PDMS 从 88.10 提升到 88.61，验证了更丰富的几何输入即使在标准融合模块下也能提升感知性能。

接着，集成作者的 Gated Mamba Fusion（GMF）模块后，PDMS 进一步提升至 88.82。尽管 EP 略有下降，整体性能的提升表明作者的空间感知融合机制能够有效利用这些几何特征。

最后，采用完整的 14 维 pillar 表示使 PDMS 达到最高的 88.85。相较于 8 维版本的增益较小（+0.03），但在所有指标上均带来了一致的小幅提升。这表明 8 维表示捕获了最关键的几何信息，而额外的统计特征提供了细微的优化。

总体而言，这些组件相较于基线带来了 0.75 分的 PDMS 提升，证明了数据表示和融合架构对于实现最优性能都至关重要。

融合架构设计分析

表 3 对融合策略的系统性评估为作者的架构设计提供了有力证据。从基线自注意力（SA）机制开始，切换到跨注意力（CA）带来了可观的性能提升，PDMS 从 88.10 提升到 88.39。这一提升源于跨注意力在相机和 LiDAR 模态间建立直接特征对应关系的优势，相较于基线的拼接融合，跨模态交互更有效。

C-EffiMamba 的方法尝试用通用状态空间模型替代 Transformer 架构。PDMS 降至 88.02，表明简单套用标准序列模型无法捕捉驾驶场景固有的复杂空间关系。

CA+EffiMamba 的提升有限（88.04），但其分层版本（HCA+EffiMamba）显著提升至 88.44。性能差距突出了多尺度处理在传感器融合中的重要性，分层注意力机制能在不同空间分辨率下自适应聚焦于相关区域，同时保持上下文感知能力。

最大提升来自 HCA+BEV-SSM 配置，它引入了作者专门优化的 BEV 状态空间模型，PDMS 达到 88.69。这种针对 BEV 优化的扫描模式与空间先验对于处理 BEV 表示特别有效，从而在轨迹预测与障碍物检测任务中获得更优表现。

GM-Fusion 组件分析

表 4 量化了 GM-Fusion 各组件的贡献。仅添加分层可变形跨注意力（HCA）即可将 PDMS 从 88.10 提升至 88.46，得益于 DAC 和 EP 的提升。

将 HCA 与通道注意力结合进一步提升到 88.67，主要提升了 NC 和 TTC，说明在融合前显式对齐相机与 LiDAR 特征的重要性。

将 HCA 与作者的 BEV-SSM 结合也达到了类似的 88.69，说明 BEV-SSM 的空间建模能力与通道对齐在融合中同样有效，同时由于其线性复杂度而具备更高计算效率。

最后，完整集成所有三个组件的 GM-Fusion 模块，PDMS 达到最高的 88.85。最终的性能提升验证了通道注意力与 BEV-SSM 的互补性：前者跨模态对齐特征，后者在融合表示中建模空间依赖，两者的协同作用是作者取得最优性能的关键。

定性比较

为了直观展示作者方法的优势，作者在图 4 中给出了轨迹的可视化比较。
在左转场景 (a) 中，DiffusionDrive 生成的轨迹偏离了真实轨迹，表现出方向不一致。在直行场景 (b) 中，基线方法出现了意外的左偏；在右转场景 (c) 中，DiffusionDrive 生成的轨迹保持直行，与所需的轨迹几何不符。这些模式表明，基于 Transformer 的融合框架在空间推理方面存在局限。

相比之下，GMF-Drive 在所有场景中都实现了准确的路径对齐。作者的方法能够正确完成左转 (a) 和右转 (c)，同时在直行 (b) 中保持稳定的直线运动。
这种表现直接得益于作者的架构创新：几何增强的柱状表示保留了关键的 3D 结构信息，而 GM-Fusion 通过方向扫描序列实现了空间感知的特征融合，并能在多模态处理过程中自适应地优先关注前方区域，从而生成更符合空间约束的轨迹。

结论

在这项工作中，作者提出了 GMF-Drive —— 一个新型的端到端自动驾驶框架，它将几何增强的柱状表示与具备空间感知能力的门控状态空间模型相结合，用于多模态感知融合。该融合方式有效替代了当前依赖 Transformer 的融合框架。通过在 NAVSIM 基准上的全面实验，作者的消融研究验证了融合架构设计的合理性，而定量结果表明，GMF-Drive 在性能上达到了新的最优水平。

2025-08-14 全面超越DiffusionDrive！中科大GMF-Drive：全球首个Mamba端到端SOTA方案

发表回复取消回复

Categories

Archives

2025-08-14 全面超越DiffusionDrive！中科大GMF-Drive：全球首个Mamba端到端SOTA方案

发表回复 取消回复

Categories

Archives

发表回复取消回复