2024-12-16 Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

三维语义占用预测是稳健的视觉主导自动驾驶中的一项重要任务，它预测周围场景的精细几何结构和语义信息。大多数现有方法采用密集的基于网格的场景表示，忽略了驾驶场景的空间稀疏性。尽管三维语义高斯分布作为一种以对象为中心的稀疏替代方案，但大多数高斯分布仍以低效的方式描述空旷区域。为解决这一问题，我们提出了一种概率高斯叠加模型，该模型将每个高斯分布解释为其邻域被占用的概率分布，并遵循概率乘法原则来推导整体几何结构。此外，我们采用精确的高斯混合模型进行语义计算，以避免高斯分布的不必要重叠。为了有效地在非空旷区域初始化高斯分布，我们设计了一个基于分布的初始化模块，该模块学习像素对齐的占用分布，而不是表面的深度。在nuScenes和KITTI360数据集上进行了大量实验，GaussianFormer-2模型以高效率实现了最先进的性能。

代码地址：https://github.com/huang-yh/GaussianFormer

一些基础介绍

在自动驾驶领域，与基于激光雷达（LiDAR）的同类产品相比，以视觉为中心的系统更具成本效益。然而，它们无法捕捉任意形状的障碍物，这对驾驶的安全性和可靠性构成了挑战。三维语义占用预测方法的出现通过预测周围三维环境的精细几何结构和语义信息，缓解了这一局限性。这一进展支持了一系列新兴应用，包括端到端自动驾驶、四维占用预测以及自监督三维场景理解。

尽管三维语义占用预测有着广阔的应用前景，但其本质上是一项密集的三维分割任务，因此需要一种既高效又有效的三维场景表示方法。基于体素的方法使用密集的三维体素作为表示，以最精细的细节描述场景。然而，它们忽略了三维占用中的空间冗余，并面临高计算复杂度的挑战。为了规避这一问题，平面表示方法，如鸟瞰图（BEV）和透视投影体素（TPV），通过沿某一轴压缩三维网格来生成二维特征图，从而减少标记数量。尽管如此，它们在建模环境时仍然考虑了空旷区域，这损害了其模型容量和效率。作为以对象为中心的稀疏场景表示的先驱，三维语义高斯分布通过为每个高斯分布学习均值、协方差、不透明度和语义，以稀疏的方式描述三维空间。然而，当前的三维语义高斯表示仍存在一些局限性：1）每个高斯分布仍然可以描述空旷区域，考虑到三维占用的空间稀疏性，在以对象为中心的公式中，大多数高斯分布都是无用的。2）聚合过程忽略了重叠问题，直接累加每个高斯分布的贡献以产生占用预测，这导致语义逻辑回归值无界，并进一步增加了高斯分布之间的重叠。因此，独立描述占用区域的有效高斯分布的比例可能极低，这损害了三维语义高斯表示的效率。这里我们引入了一种概率高斯叠加模型，以解决三维语义高斯分布的上述局限性，并提高利用率和效率。具体来说，我们提出了概率高斯表示，通过将每个高斯分布解释为其邻域被占用的概率分布，使三维高斯分布专门用于建模非空旷区域。采用概率乘法定理来聚合独立概率分布，并推导出几何预测。此外，我们将高斯混合模型整合到我们的概率高斯表示中，以生成归一化的语义预测，从而避免逻辑回归值无界，并防止高斯分布发生不必要的重叠。由于我们的表示仅建模占用区域，这里还设计了一个基于分布的初始化模块，以有效地在非空旷区域周围初始化高斯分布，该模块学习像素对齐的占用分布，而不是表面的深度值。我们分别在nuScenes和KITTI-360数据集上进行了广泛的实验，用于环视和单目三维语义占用预测。GaussianFormer-2模型以高效率超越了最先进的方法。此外，定性可视化结果表明，GaussianFormer-2能够生成整体且逼真的场景感知。

相关工作回顾

3D语义占用预测

3D语义占用预测已成为自动驾驶中一种颇具前景的环境建模方法，因为它能够全面描述驾驶场景。这项任务旨在通过一种或多种类型的传感器作为输入，为场景中的每个体素打上标签。最常用的两种传感器是激光雷达（LiDAR）和摄像头。尽管基于LiDAR的方法在三维感知任务中表现卓越，但在恶劣天气条件下和远距离物体检测方面存在局限；因此，基于摄像头的方法越来越受到关注。在3D语义占用预测任务的开创性工作中，采用基于密集网格的表示作为推导占用的直接手段，随后的工作转向以对象为中心的稀疏表示，以解决密集表示固有的冗余问题。

基于网格的场景表示

在自动驾驶的场景感知任务中，平面表示已成为一种具有竞争力的表示方法。BEVFormer是这类工作的先驱，它仅使用摄像头输入，并在检测和分割任务中与基于LiDAR的方法表现相当。它将图像特征转换为鸟瞰图（BEV）特征，作为统一的场景表示，因为从这个视角获得的信息最为丰富。然后，将BEV特征用于下游任务。然而，BEV特征不适合用于3D占用构建，因为它会导致高度信息丢失。作为BEV空间的推广，TPVFormer提出了三视角表示，以包含高度信息，从而使其更适合于3D场景。另一个研究方向采用基于体素的表示作为更具体于3D且更精细的方法，使其有利于3D体积语义预测。然而，这些方法使用基于密集网格的表示，无论环境的空间稀疏性如何，都平等地描述每个体素，从而导致固有的冗余。

以目标为中心的场景表示

为了消除密集表示中固有的空间冗余，许多近期工作采用了稀疏表示。一种方法是将密集网格划分为物体所在的部分，并省略预见为空旷的区域。然而，非空旷区域可能会被错误地分类为未占用，并在整个后续过程中被完全消除。另一种方法利用点表示，通过在场景范围内采样点作为后续细化过程中的查询；但是，点表示的描述范围有限，因为它没有空间范围。另一种方法，GaussianFormer，采用了3D语义高斯表示，其中概率围绕均值分布，从而实现了更高的利用率。然而，由于没有规定高斯不能表示空旷，空间冗余仍然存在。

GaussianFormer-2方法

我们提出了一种概率高斯叠加方法，用于高效的三维语义占用预测。首先，我们回顾了原始的三维语义高斯表示法及其局限性。然后介绍了我们的概率高斯建模方法，以及如何基于概率乘法定理和高斯混合模型来推导几何和语义预测。最后详细阐述了基于分布的初始化模块，该模块可有效地在占用区域周围初始化概率高斯。

3D 语义高斯表示

其中，Σ表示协方差矩阵，R表示由四元数r通过函数q2r(·)构造的旋转矩阵，S表示由函数diag(·)得到的对角尺度矩阵。

尽管与密集体素的数量相比，由于高斯分布如等式（2）所示的可变形特性，高斯数量有所减少，但3D语义高斯表示仍存在一些局限性。首先，它使用语义属性c以相同的方式对占据区域和未占据区域进行建模，由于室外场景中空旷区域占比巨大，导致大多数高斯被归类为空。其次，语义高斯表示鼓励高斯重叠，因为等式（1）中的聚合过程独立地累加每个高斯的贡献，导致无界的占用预测oˆ。为了优化，模型会学习分配更多的高斯来描述同一区域，由于oˆ的无界特性，这加剧了高斯之间的重叠。这些局限性源于当前对高斯的解释，阻碍了3D语义高斯表示的效率和有效性。我们的方法从概率的角度探讨了基于高斯的对象中心表示，为解决这些问题提供了根本性的方案，如图2所示。

概率高斯叠加

其中，α(x; G)表示由高斯G引起的点x被占据的概率。等式（4）在点x接近高斯G的中心时赋予其较高的占据概率，从而防止任何高斯描述空区域。为了进一步推导出整体的占据概率，我们假设不同高斯描述的点被占据的概率是相互独立的，因此可以根据概率乘法定理将它们聚合起来。

其中，α(x) 表示点 x 处的总体占据概率。除了具备以目标为中心的特性外，等式（5）还避免了高斯分布之间的不必要重叠，因为对于任意高斯分布 Gi，都有 α(x) ≥ α(x; Gi) 成立。这意味着，如果点 x 足够接近任意一个高斯分布，则预测该点被占据。

语义预测。除了以目标为中心的无重叠几何建模外，我们还需要在语义预测上实现相同的目标。首先，由于空类已经在几何预测中考虑过了，我们从高斯分布的语义属性c中移除了表示空类的通道。然后，我们将高斯集合G解释为高斯混合模型，其中语义预测可以表述为在给定的概率高斯混合模型下计算期望语义。具体来说，将原始的不透明度属性a作为高斯分布的先验分布，该分布是L1标准化的。此外采用由均值m、尺度s和旋转r参数化的高斯概率分布作为条件概率。然后使用softmax对原始语义属性c进行归一化，以确保预测语义的有界性。最后，我们计算期望e(x; G)。

在给定了几何和语义预测后，我们迈出了简单的一步，将它们结合起来以生成最终的语义占据预测。

Distribution-Based Initialization

之前的3D语义高斯表示采用了一种可学习的初始化策略，该策略在训练开始时随机初始化高斯属性的值，并以数据驱动的方式优化这种初始化。这种策略使模型能够学习到整个数据集占据情况的先验分布，这依赖于后续网络的精细化调整以适应每个单独样本的分布。然而，高斯分布的局部感受野限制了其移动性，这阻碍了每个高斯分布在后续精细化调整中学习到达正确位置的路径。对于我们的概率高斯叠加表示（其中高斯分布仅用于建模占据区域）来说，这个问题甚至更加严重。