三位一体:精度、完整性、效率
稠密3D重建是计算机视觉领域的一个长期挑战,旨在捕捉和重建真实场景的详细几何结构。传统方法主要依赖多阶段管道,这些方法通常从稀疏的同时定位与建图(SLAM)或结构光照相(SfM)算法开始,用于估计相机参数,随后使用多视角立体重建(MVS)技术填充场景细节。这些方法虽然可以提供高质量的重建结果,但通常需要离线处理才能生成完整的模型,这限制了它们在实际场景中的适用性。
稠密SLAM方法被开发为一个完整系统来解决稠密场景重建问题。然而,这些方法通常在重建精度或完整性方面表现不足,或者过度依赖深度传感器。近年来,一些单目SLAM系统被提出用于从RGB视频中重建稠密场景。这些系统通过引入先进的场景表示,能够生成准确且完整的场景重建结果,但运行效率显著下降。例如,NICER-SLAM的运行速度远低于1 FPS。因此,当前方法在重建的精度、完整性或效率三大关键指标中,至少会在一方面存在不足。
虽然单目稠密SLAM系统存在上述限制,但最近在双视角几何方面的进展展示出潜在的应用前景。对于多视角重建,该方法需要额外的全局优化步骤来对齐这些图像对,导致效率大幅下降。同时,一项同期工作Spann3R将DUSt3R扩展到多视角(视频)场景,通过成对增量式重建管道加速重建过程,但其方法在精度方面出现了明显的累积漂移。

SLAM3R[1]是一种新型的SLAM系统,专为实时单目稠密3D重建而设计。SLAM3R由两层框架组成:
- 首先,系统使用滑动窗口机制,从输入视频的短片段中重建局部3D几何
- 然后,逐步将这些局部重建结果注册到全局一致的3D场景中。
这两个模块均采用简单而高效的前馈神经网络,从而实现端到端的高效场景重建。具体而言,这两个模块分别是图像到点云(I2P)网络和局部到全局(L2W)网络。I2P模块受DUSt3R启发,在局部窗口中选择一个关键帧作为坐标系参考,并直接预测该窗口中所有帧支持的稠密3D点云。L2W模块则逐步将这些局部重建的点云融合到统一的全局坐标系中。整个过程无需显式估计任何相机参数。
大量实验证明了SLAM3R在多种基准数据集上实现了高质量的场景重建,且漂移极小,超越了现有的稠密SLAM系统。此外,SLAM3R在20+ FPS的运行速度下,成功弥合了RGB稠密场景重建中质量与效率之间的鸿沟。
项目链接(coming soon):https://github.com/PKU-VCL-3DV/SLAM3R
主要贡献:
- 提出了一种新颖的实时端到端稠密3D重建系统,能够直接预测统一坐标系下的3D点云。
- 通过精心设计,使得图像到点云(I2P)模块能够同时处理任意数量的图像,有效地将DUSt3R扩展到多视角场景,从而产生更高质量的预测结果。
- 提出的局部到全局(L2W)模块直接将局部预测的3D点云对齐到统一的全局坐标系,消除了对显式相机参数估计和昂贵的全局优化的需求。
- 在多个公共基准数据集上验证了该方法的有效性,结果表明其在保持实时性能的同时,在重建精度和完整性方面达到当前最优水平。
具体方法
问题定义

系统概述
如图2所示,提出的稠密SLAM系统包括两个主要组件:
- 图像到点云(I2P)网络:从视频片段中恢复局部3D点云。
- 局部到全局(L2W)网络:将局部重建结果逐步注册到全局场景坐标系中。


局部窗口内重建



跨窗口全局注册


实验效果





总结一下
SLAM3R是一种新颖且高效的单目RGB SLAM系统,用于实时高质量的稠密3D重建。该方法采用了一个双层次的神经网络框架,通过简化的前馈过程实现端到端的3D重建,避免了显式求解任何相机参数的需求。实验结果表明,SLAM3R在重建质量和实时性方面均达到了当前技术的最优水平,能够实现20+ FPS的实时性能。
参考
[1] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos

发表回复