有效利用时空相关性
地点识别的任务是通过修正SLAM算法中的累计漂移来提供全球定位信息。在自动驾驶系统中,摄像头常用于基于视觉的地点识别(VPR),提供丰富的语义和纹理信息。然而,由于光照、季节和天气的变化,特别是在大规模的室外环境中,从摄像头图像中提取的视觉特征往往不够稳定,导致识别精度较低。相比之下,激光雷达传感器在这些因素下表现出更高的稳定性,因此在大规模室外场景中,基于激光雷达的地点识别(LPR)更为稳健。然而,LPR的识别性能仍然受到激光雷达点云自然稀疏性以及缺乏纹理和语义信息的限制。
大多数多模态地点识别(MPR)方法从场景的原始表示(例如原始图像和点云)中独立提取特征,并执行不可解释的特征级融合,导致未能充分利用不同模态之间的时空相关性。因此,如何有效地将多模态传感器数据融合为统一的场景表示,并充分提取多模态的时空相关性,仍是一个值得进一步研究的话题。3D-GS方法通过3D高斯建模构建了显式的场景表示,能够快速渲染新视角,同时有效捕捉精确的几何信息。通过聚合多个视角的连续观测,3D-GS全面构建了空间结构表示,为多模态地点识别的时空融合提供了可能。

本文介绍的GSPR[1]是一种基于3D高斯喷溅的多模态地点识别方法,如图1所示。首先设计了一个多模态高斯喷溅(MGS)方法来表示自动驾驶场景。利用LiDAR点云作为初始化高斯分布的先验信息,这有助于解决在此类环境中结构自运动(SfM)失败的问题。此外,采用了混合掩码机制来去除对地点识别不太有价值的不稳定特征。通过这种方式,将多模态数据融合为一个时空统一的高斯场景表示。然后,通过体素分区将每个场景中无序的高斯点下采样为一组体素,并开发了一个基于3D图卷积和变换器的网络,用于提取高级时空特征,生成区分性描述符以进行地点识别。通过提出的多模态高斯喷溅方法,将多模态数据融合为统一的显式场景表示,为多模态地点识别的时空融合提供了基础。
项目链接:https://github.com/QiZS-BIT/GSPR
主要贡献如下:
- 提出了多模态高斯喷溅方法,将多视角相机和LiDAR数据协调为时空统一的显式场景表示。
- 提出了GSPR,这是一种新颖的多模态地点识别(MPR)网络,配备了3D图卷积和变换器,用于聚合MGS场景表示中固有的高级局部和全局时空信息。
- 广泛的实验结果表明,在地点识别性能上优于最新的单模态和多模态方法,同时在未见过的驾驶场景上表现出良好的泛化能力。
具体方法
如图2所示,GSPR由两个组成部分构成:多模态高斯喷溅(MGS)和全局描述符生成器(GDG)。
- 多模态高斯喷溅将多视角相机和LiDAR数据融合为时空统一的高斯场景表示。
- 全局描述符生成器通过3D图卷积和变换器模块从场景中提取高级时空特征,并将这些特征聚合为区分性全局描述符,以用于地点识别。

多模态高斯喷溅

如图3所示,多模态高斯喷溅方法通过图像分支和LiDAR分支处理多模态数据,然后通过高斯优化将不同模态整合为一个时空统一的显式场景表示。图像分支利用序列多视角RGB图像作为输入,并通过混合掩码机制生成动态和静态掩码。LiDAR分支补充了远距离场景的LiDAR覆盖,缓解了过拟合现象,并为高斯初始化提供了LiDAR先验信息。
LiDAR先验

过拟合缓解
与传统的3D高斯喷溅方法能够轻松渲染的有界场景不同,自动驾驶场景由于其无边界性和训练视角分布的稀疏性,带来了许多挑战。监督信号的稀缺导致训练视角的过拟合,进而引发了浮动伪影和几何结构的错位。
过拟合的一个主要原因是近距离和远距离场景之间的混淆。由于远距离景观的几何信息不足,高斯在训练过程中往往会将远距离场景拟合为近距离场景中的浮动伪影,导致背景坍塌。通过增加球形点云,增强了超出LiDAR覆盖范围的远距离场景的重建质量。球形点云还通过多视角RGB图像进行着色,作为初始高斯先验。
混合掩码机制
在自动驾驶场景中,一些环境特征随着时间的推移表现出不稳定性,并且对地点识别的贡献较小。因此提出了混合掩码机制,专注于在高斯优化过程中仅重建稳定的部分。
我们使用在Cityscapes数据集上预训练的Mask2Former作为语义分割模块,用于生成训练图像的语义标签。通过将语义标签与2D真实标注结合,我们可以获得实例级的掩码表示。鉴于不稳定环境特征的性质,我们将掩码区域分为静态掩码(例如天空和道路表面)和动态掩码(例如车辆和行人),它们在高斯优化过程中分别扮演不同的角色。静态掩码用于训练图像的筛选标准,训练图像中被静态掩码覆盖的区域将被3D-GS渲染器的背景色覆盖,以限制高斯的生成。相反,动态掩码涵盖了场景中的动态物体。值得注意的是,直接筛除这些动态物体的阴影区域可能会导致不必要的信息损失。因此,我们采用了“损失分离”策略,在高斯优化过程中忽略了掩码区域的LMGS损失。这一策略减少了动态物体的负面影响,同时相比直接过滤掉含有动态物体的帧,保留了更多的大规模重建监督信息。

如图4所示,提出的混合掩码机制有效地屏蔽了不稳定的特征。此外,LiDAR先验的使用和过拟合缓解技术的采用,有助于保持重建场景的一致尺度和准确的几何结构。因此,与在自动驾驶场景中使用的传统3D高斯喷溅相比,我们的MGS展现了更好的新视角合成能力,能够为地点描述提供时空一致的MGS场景表示。
全局描述符生成器
全局描述符生成器用于从提出的MGS(多模态高斯喷溅)表示中提取区分性地点识别描述符。为了提取高级时空特征,首先对MGS场景进行体素化(Voxelization),然后通过一个由3D图卷积和变换器模块组成的主干网络来提取局部和全局的特征。最后,将这些时空特征通过NetVLAD-MLP组合进行聚合,生成区分性的全局描述符用于地点识别。
体素分区与编码

3D图卷积

变换器模块
采用transformers,以进一步提升地点识别性能。与这些主要专注于自注意力机制但不包含位置编码的工作不同,提出使用可学习的位置编码将特征图中的空间相关性引入到变换器的隐特征空间中。


实验效果



总结一下
GSPR是一种基于3D高斯喷溅的多模态地点识别网络。通过多模态高斯喷溅融合多视角RGB图像和LiDAR点云,创建了一个时空统一的MGS场景表示,适用于自动驾驶场景。为了处理无序的高斯数据,实现了体素降采样,以有效组织数据。进一步提出使用3D图卷积网络和变换器模块,从高斯图中提取局部和全局的时空特征,生成区分性描述符用于地点识别。实验结果表明,在处理具有挑战性的地点识别任务时,优于最新的单模态、多模态以及序列增强的方法,表现出显著的泛化能力。
参考
[1] GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving

发表回复