2025-05-20 佐治亚理工学院最新！GaussianFormer3D：基于多模态高斯的三维可变形注意力语义OCC预测~

原文连接：https://zhuanlan.zhihu.com/p/1907889795356664403

三维语义OCC预测对于实现安全可靠的自动驾驶至关重要。与纯视觉的感知系统相比，多模态方法，尤其是激光雷达-视觉融合方法，能够产生更准确和详细的预测。尽管大多数现有工作使用密集的基于网格的表示，在这种表示中整个3D空间被均匀地划分为离散体素，但3D高斯提供了一种紧凑且连续的以目标为中心的表示。在这项工作中，我们提出了一种基于多模态高斯的语义OCC预测框架，利用3D可变形注意力

，命名为GaussianFormer3D。我们引入了一种从激光雷达数据中初始化3D高斯的体素到高斯策略，并设计了一种由激光雷达引导的3D可变形注意力机制，用于在提升的3D空间中通过激光雷达-视觉融合特征来优化3D高斯。我们在公路和非公路数据集上进行了广泛的实验，结果表明我们的GaussianFormer3D在具有减少内存消耗和提高效率的情况下，达到了与最先进的多模态融合方法相当的高预测精度。

论文链接：https://arxiv.org/abs/2505.10685
项目主页：https://lunarlab-gatech.github.io/GaussianFormer3D/

本文简介

感知系统对于构建安全可靠的自动驾驶车辆至关重要。在各种感知任务中，3D语义OCC预测尤为重要，因为它能够细粒度理解环境的语义和几何信息。基于视觉的OCC预测的最新进展在大规模数据集上展示了令人印象深刻的性能。然而，视觉传感器对光照条件敏感且缺乏准确的深度估计，这促使研究人员结合其他传感器模态以增强自动驾驶感知系统的鲁棒性。

激光雷达传感器已广泛应用于自动驾驶中的感知任务，如3D目标检测。与视觉相比，激光雷达提供了更精确的深度信息，并捕捉了物体的更精细的几何关系，使得激光雷达特别适合于3D语义OCC预测。然而，基于激光雷达的pipeline可能难以捕获小目标的准确语义信息，而基于视觉的方法在这方面表现出色。为了平衡语义和几何，已经提出了多模态融合算法，以利用不同传感器的优势。基于融合的语义OCC预测方法包括激光雷达-视觉融合、视觉-雷达融合和激光雷达-视觉-雷达融合。在这些传感器配置中，激光雷达-视觉融合是最流行且表现最好的。

现有的大多数激光雷达-视觉占据网络采用3D体素-based或2D鸟瞰图(BEV)-based表示，两者都将3D场景描绘为密集的网格结构。尽管取得了可比的性能，但它们不可避免地在冗余的空网格和高计算成本上存在困难。最近，受3D高斯泼溅成功的启发，一种新的以目标为中心的表示首次在基于视觉的3D语义OCC预测中得到探索。GaussianFormer将3D场景表示为一组3D高斯，每个高斯由均值、协方差和语义标签组成。这些高斯通过2D可变形注意机制进行优化，并通过高效的高斯到体素泼溅模块预测语义占据。然而，当前的高斯基方法仅依赖于2D图像反馈来更新3D高斯，限制了其建模具有准确深度信息和细粒度几何结构的3D空间的能力。如何利用来自其他模态（如激光雷达）的数据来优化和获得更准确的3D高斯表示，以实现高效的语义OCC预测，仍有待探索。

基于上述观察，我们提出了GaussianFormer3D：一种基于多模态高斯的语义OCC预测框架，结合3D可变形注意力，如图1所示。GaussianFormer3D使用从激光雷达体素特征初始化的3D高斯建模场景，通过激光雷达-视觉统一的3D特征空间中的3D可变形注意力更新高斯，并最终通过高斯到体素泼溅预测语义占据。据我们所知，GaussianFormer3D是第一个采用高斯基以目标为中心的场景表示的多模态语义占据网络。综上所述，我们的主要贡献如下：

我们提出了一种全新的基于多模态高斯的语义OCC预测框架。通过整合激光雷达和视觉数据，我们的方法在相似内存使用情况下显著优于仅使用视觉的基线方法。
我们设计了一个从体素到高斯的初始化模块，为3D高斯提供来自激光雷达数据的几何先验。我们还开发了一种增强的3D可变形注意力机制，通过在提升的3D空间中聚合激光雷达-视觉融合特征来更新高斯。
我们在两个公路数据集nuScenes
-SurroundOcc和nuScenes-Occ3D以及一个非公路数据集RELLIS3D-WildOcc上进行了广泛的评估。结果显示，GaussianFormer3D在减少内存消耗和提高效率的情况下，表现与最先进的密集网格基方法相当。

GaussianFormer3D方法详解

GaussianFormer3D的概述如图2所示。

场景作为3D高斯表示

体素到高斯初始化

激光雷达引导的3D可变形注意力

实验结果分析

数据集

NuScenes数据集提供了1000个驾驶场景序列，使用6个环视摄像头、1个激光雷达、5个雷达和1个IMU采集。每个序列持续20秒，并以2Hz频率标注。SurroundOcc和Occ3D都提供了nuScenes数据集的语义占据注释，分别包括700个和150个场景用于训练和验证，涵盖18个类别（即16个语义类别、1个噪声类别和1个空类别）。不同的是，SurroundOcc将每个场景划分在范围[-50m, 50m]×[-50m, 50m]×[-5m, 3m]内，体素分辨率为0.5m，而Occ3D将场景划分在[-40m, 40m] × [-40m, 40m] × [-1m, 5.4m]范围内，体素分辨率为0.4m。提供了视觉可见性掩码。

RELLIS-3D

数据集是一个多模态的非公路驾驶数据集，包含RGB图像、激光雷达点云、立体图像、GPS和IMU数据。WildOcc提供了RELLIS-3D的第一个非公路占据注释，分为7399/1249/1399帧用于训练、验证和测试。注释范围为[-20m, 0m] × [-10m, 10m] × [-2m, 6m]，每个体素分辨率为0.2m，并标记为9个类别之一（7个语义类别，1个其他类别和1个空类别）。WildOcc用于评估我们的模型在非公路场景下的性能，使用激光雷达-单目设置。

实现和评测细节

对于视觉分支，我们将输入图像的分辨率设置为nuScenes数据集的900 × 1600和RELLIS-3D数据集的1200 × 1920。我们利用从FCOS3D预训练的ResNet101-DCN检查点作为骨干网络，并使用FPN作为颈部网络。对于激光雷达分支，我们聚合并体素化前10次的点云，并通过体素特征编码器获取平均特征。激光雷达深度图在训练前按照[31, 35]生成并保存。在主要实验中，高斯的数量设置为25,600。我们使用这些高斯仅建模占据空间，并将空闲空间留出一个固定的大高斯以提高效率。我们使用AdamW优化器进行训练，权重衰减为0.01。学习率设置为nuScenes的1×10^-4和RELLIS-3D的3×10^-4，并按余弦退火调度衰减。我们的模型在Nvidia A40 GPU上训练了24个epoch，批处理大小为8，在nuScenes上和20个epoch，批处理大小为4在RELLIS-3D上。我们使用交并比(IoU)和平均交并比(mIoU)作为评估指标，遵循MonoScene。有关指标计算的详细信息，请参见补充材料。

定量结果分析

3D语义OCC预测性能。我们在表1、表2和表3中分别报告了GaussianFormer3D在SurroundOcc、Occ3D和WildOcc上的性能。对于表1和表2中的公路场景，我们的方法在所有类别上都超过了GaussianFormer，分别在SurroundOcc上提升了13.5和8.0的IoU和mIoU，在Occ3D上提升了10.9的mIoU。与最先进的激光雷达-视觉融合方法相比，GaussianFormer3D实现了相当的整体性能，同时在预测小型物体（如摩托车、行人）、动态车辆（如汽车、施工车辆、卡车）和周围表面（如人造物、植被）方面表现优异，这些类别对于自动驾驶任务至关重要。这一改进归功于高斯对灵活规模和形状物体建模的通用逼近能力。对于表3中的非公路结果，我们的方法使用单帧图像输入比使用4帧连续图像的M-OFFOcc在IoU上提高了1.1，并在mIoU上表现相当。此外，我们的方法在测试集上比GaussianFormer在IoU上提高了14.4，在mIoU上提高了6.8，突出了激光雷达在理解复杂非公路地形几何结构中的作用。GaussianFormer3D在预测大面积区域（如草地、树木和水坑）方面表现出色，而在细微地形变化（如泥泞）上仍不够理想。对于障碍物和碎石，由于测试集中出现率低（占据体素的0.001%），缺乏足够特征进行可靠预测，这构成了挑战。更多分析请参见补充材料。

模型效率评估和高斯数量的影响。我们在表4中评估和比较了我们的方法与其他方法的耗时和内存消耗。我们的模型在保持与仅使用视觉方法大致相同的低内存使用的同时，实现了多模态融合预测性能。与Co-Occ相比，我们的方法节省了约50%的内存消耗，使其更适合在自动驾驶车辆上运行。此外，我们的方法仅使用25,600个高斯和28个通道，而Co-Occ需要80,000个查询和128个通道以达到相似性能，展示了我们的方法在启用连接车辆或多机器人协作中更高效通信的潜力。我们方法的耗时高于基于视觉的流水线，这主要是由于3D可变形注意力操作引入的计算开销。我们还研究了高斯数量对模型性能的影响，如表4所示。随着高斯数量的增加，耗时和内存消耗上升，而IoU和mIoU指标稳步提高。

消融实验

为了分解由两种设计模块带来的性能改进，我们进行了广泛的消融实验以验证我们的设计选择。主要的消融研究在表5中进行。我们观察到，所提出的体素到高斯初始化和激光雷达引导的3D可变形注意力模块都对GaussianFormer3D的卓越性能有所贡献。体素到高斯初始化显著提高了模型检测小型物体（如行人、交通锥）和大表面（如人造结构、植被）的能力。这验证了多扫激光雷达扫描在为高斯提供占据空间准确几何信息方面的有效性。我们还注意到，激光雷达引导的3D可变形注意力机制增强了模型对动态车辆（如自行车、公共汽车、汽车、摩托车、拖车、卡车）和近路表面（如可行驶表面、平坦区域、人行道、地形）的预测能力，其中由激光雷达点检测到的物体对周围摄像头可见。在这些区域中，激光雷达点和相应的图像像素在提升的3D特征空间中相关联，使模型能够检索道路和近路物体的聚合融合特征。

定性结果

我们在图3中可视化3D高斯和占据情况，以定性验证GaussianFormer3D在公路场景中的有效性。我们的方法能够准确预测周围环境的语义信息和细粒度几何结构。在某些情况下，它甚至超越了地面真实情况，正确填补了缺乏语义注释的区域。我们在图4中给出了我们的方法在非公路场景中的定性结果。我们的方法能够预测像泥浆和水坑这样的类别，这对实现安全有效的非公路自动驾驶至关重要。我们在图5中进一步将我们的方法与GaussianFormer进行比较。我们的方法中的高斯在规模和形状上更加自适应，精确出现在长距离和短距离区域中的物体占据区域，得益于激光雷达传感器。此外，与基于体素的离散化方法相比，我们的方法可以在没有额外训练成本的情况下预测多分辨率语义占据，归因于高斯的连续属性。这种属性在更高分辨率下推理时，能够在某些区域实现更准确和更平滑的预测，如图6所示。请参见补充材料以获取更多定性结果。

结论

在本文中，我们提出了GaussianFormer3D，这是一种基于3D高斯场景表示和3D可变形注意力的新型多模态语义OCC预测框架。我们引入了一种体素到高斯初始化策略，以赋予3D高斯来自激光雷达数据的准确几何先验。我们还设计了一种激光雷达引导的3D可变形注意力机制，以在提升的3D空间中使用激光雷达-视觉融合特征优化3D高斯。广泛的实验证明了GaussianFormer3D在实现准确和细粒度语义OCC预测方面的有效性。未来，我们计划探索我们的多模态3D高斯场景表示在多机器人协调中的应用。

2025-05-20 佐治亚理工学院最新！GaussianFormer3D：基于多模态高斯的三维可变形注意力语义OCC预测~

本文简介

相关工作回顾