2024-12-17 SLAM3R当前重建质量和实时性最有水平！SLAM3R：20+FPS的新颖单目RGB SLAM系统SLAM3R

三位一体：精度、完整性、效率

稠密3D重建是计算机视觉领域的一个长期挑战，旨在捕捉和重建真实场景的详细几何结构。传统方法主要依赖多阶段管道，这些方法通常从稀疏的同时定位与建图（SLAM）或结构光照相（SfM）算法开始，用于估计相机参数，随后使用多视角立体重建（MVS）技术填充场景细节。这些方法虽然可以提供高质量的重建结果，但通常需要离线处理才能生成完整的模型，这限制了它们在实际场景中的适用性。

稠密SLAM方法被开发为一个完整系统来解决稠密场景重建问题。然而，这些方法通常在重建精度或完整性方面表现不足，或者过度依赖深度传感器。近年来，一些单目SLAM系统被提出用于从RGB视频中重建稠密场景。这些系统通过引入先进的场景表示，能够生成准确且完整的场景重建结果，但运行效率显著下降。例如，NICER-SLAM的运行速度远低于1 FPS。因此，当前方法在重建的精度、完整性或效率三大关键指标中，至少会在一方面存在不足。

虽然单目稠密SLAM系统存在上述限制，但最近在双视角几何方面的进展展示出潜在的应用前景。对于多视角重建，该方法需要额外的全局优化步骤来对齐这些图像对，导致效率大幅下降。同时，一项同期工作Spann3R将DUSt3R扩展到多视角（视频）场景，通过成对增量式重建管道加速重建过程，但其方法在精度方面出现了明显的累积漂移。

SLAM3R[1]是一种新型的SLAM系统，专为实时单目稠密3D重建而设计。SLAM3R由两层框架组成：

首先，系统使用滑动窗口机制，从输入视频的短片段中重建局部3D几何
然后，逐步将这些局部重建结果注册到全局一致的3D场景中。

这两个模块均采用简单而高效的前馈神经网络，从而实现端到端的高效场景重建。具体而言，这两个模块分别是图像到点云（I2P）网络和局部到全局（L2W）网络。I2P模块受DUSt3R启发，在局部窗口中选择一个关键帧作为坐标系参考，并直接预测该窗口中所有帧支持的稠密3D点云。L2W模块则逐步将这些局部重建的点云融合到统一的全局坐标系中。整个过程无需显式估计任何相机参数。

大量实验证明了SLAM3R在多种基准数据集上实现了高质量的场景重建，且漂移极小，超越了现有的稠密SLAM系统。此外，SLAM3R在20+ FPS的运行速度下，成功弥合了RGB稠密场景重建中质量与效率之间的鸿沟。

项目链接（coming soon）：https://github.com/PKU-VCL-3DV/SLAM3R

主要贡献：

提出了一种新颖的实时端到端稠密3D重建系统，能够直接预测统一坐标系下的3D点云。
通过精心设计，使得图像到点云（I2P）模块能够同时处理任意数量的图像，有效地将DUSt3R扩展到多视角场景，从而产生更高质量的预测结果。
提出的局部到全局（L2W）模块直接将局部预测的3D点云对齐到统一的全局坐标系，消除了对显式相机参数估计和昂贵的全局优化的需求。
在多个公共基准数据集上验证了该方法的有效性，结果表明其在保持实时性能的同时，在重建精度和完整性方面达到当前最优水平。

具体方法

问题定义

系统概述

如图2所示，提出的稠密SLAM系统包括两个主要组件：

图像到点云（I2P）网络：从视频片段中恢复局部3D点云。
局部到全局（L2W）网络：将局部重建结果逐步注册到全局场景坐标系中。

局部窗口内重建

跨窗口全局注册

实验效果

总结一下

SLAM3R是一种新颖且高效的单目RGB SLAM系统，用于实时高质量的稠密3D重建。该方法采用了一个双层次的神经网络框架，通过简化的前馈过程实现端到端的3D重建，避免了显式求解任何相机参数的需求。实验结果表明，SLAM3R在重建质量和实时性方面均达到了当前技术的最优水平，能够实现20+ FPS的实时性能。

参考

[1] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos

2024-12-17 SLAM3R当前重建质量和实时性最有水平！SLAM3R：20+FPS的新颖单目RGB SLAM系统SLAM3R

发表回复取消回复

Categories

Archives

2024-12-17 SLAM3R当前重建质量和实时性最有水平！SLAM3R：20+FPS的新颖单目RGB SLAM系统SLAM3R

发表回复 取消回复

Categories

Archives

发表回复取消回复