导读:
随着新视角合成技术的发展,SLAM技术与NeRF等视角合成技术的结合产物–神经隐式SLAM在近期得到了充分的研究。然而,单纯依赖这些方法的SLAM系统在跟踪性能上仍落后于传统SLAM和端到端的SLAM系统。此外,这些方法还对相机的参数标定提出了很高的要求,往往需要进行额外的标定工作确保算法能够稳定运行。
为了弥补这一不足,本文提出了一种基于端到端跟踪器的SLAM系统,并结合了基于最新3D Gaussian Splatting(3DGS)的渲染器。该框架名为DroidSplat,能够在常见的SLAM基准测试中实现先进的跟踪和渲染效果。通过在现代SLAM系统中实现多个模块并行运行,该方法可以在普通消费级GPU上进行快速推理。
该研究的重要意义在于,结合单目深度预测和相机标定的新进展,DroidSplat能够在没有已知相机内参的情况下,从而减少了对于标定的需求,在工程化的场景中能够节约大量的人力成本。这为在复杂环境下实现高效、精准的SLAM系统提供了新的可能,并推动了SLAM技术在实际工程应用中的发展。

图1|效果初览(DROID-Splat能够在已知或未知内参的情况下,实现照片级真实感的重建。

同时定位与建图(SLAM)一直是计算机视觉中的一个长期难题,广泛应用于机器人技术、自动驾驶和增强现实等领域。传统的SLAM系统主要依靠手工设计的特征来重建准确的里程计和几何结构,但通常只能生成稀疏或半稠密的环境表示。而端到端的SLAM系统通过使用学习到的特征和稠密重建目标,提升了系统的鲁棒性和精度,但它们往往无法优化出照片级真实感的场景。
最近的场景合成技术的进展使得独立的SLAM系统能够增加渲染模块,从而实现对于场景观测的实时渲染。然而,尽管这些系统在某些方面有所进展,其跟踪性能仍然不如传统SLAM系统和端到端SLAM系统。为了解决这一问题,本文提出了一种名为DROID-Splat的SLAM系统,结合了密集端到端光流和使用3DGS技术的密集渲染目标。本的系统在保留其SLAM系统灵活性的基础上,通过支持单目和RGBD推理,能够在消费级GPU上实现快速的跟踪推理,并能迅速优化出照片级真实感的场景重建。
DROID-Splat框架由三个主要部分组成:i) 端到端追踪 ii) 回环检测 iii) 可微分渲染 。作者还进一步结合了单目深度预测的最新进展,集成了当前的相机标定目标,展示了在未知相机内参的情况下,如何稳健地处理实际数据。该研究展示了通过结合密集端到端跟踪器与密集3DGS重建的方法,可以有效地重建视频中的场景,为SLAM技术的发展提供了新的视角。

图2|全文方法总览

本文旨在实现照片级真实感的密集场景重建。为此,作者采用了一个密集的端到端跟踪器,该跟踪器为每个像素提供可靠的深度(或视差)。通过对深度图进行滤波,仅保留共视点或高置信度区域,作者将处理后的数据输入渲染模块,该模块针对每个像素优化高斯超原型,并基于渲染目标对场景进行密集化。由于3DGS的轻量级特性,作者能够实时将该渲染目标与跟踪系统并行运行。
该系统的整体框架通过整合常见的SLAM组件系统地构建,最终在统一的框架下实现了最先进的在线照片级真实感重建。该系统结合了基于光流的目标进行端到端跟踪,并重建里程计和密集的初始地图。跟踪目标的灵活性使得系统能够根据需要优化相机内参或先验尺度与偏移。同时,采用最先进的3DGS技术,基于渲染目标学习照片级真实感的重建。由于所有组件都是可微分且能够并行运行,系统能够实现各部分的灵活互动。接下来,笔者将从端到端跟踪、闭环检测和可微分渲染三个方向,详细介绍具体的方法实现。
2.1 端到端跟踪

2.2 闭环检测
视觉里程计的准确性和鲁棒性不仅依赖于优化本身,特别依赖于前后端图结构。通过对潜在闭环候选点的长期连接运行更新操作,可以补偿累积的漂移。与基于递归流网络检测低明显运动的候选点的方法不同,本文通过直接的视觉相似性取得了更好的效果。该方法使用最新的端到端特征进行位置识别任务。对于每个到来的关键帧,计算其视觉特征并将其插入FAISS数据库。然后检查所有历史帧的最近邻。如果找到候选对,且满足特征距离、相机朝向距离和帧间距要求,则将其视为闭环候选,并通过向后端添加双向边来增强图结构。此过程在CPU上并行运行,附加的成本较低。
2.3 可微分渲染


实验部分,作者主要对该研究定位精度,渲染质量以及深度估计这三个方面的性能进行了定性和定量的实验,充分说明了本问方法的可行性和有效性。

图3|消融实验

图4|渲染质量量化实验
图3和图4分别是消融实验以及渲染质量的量化实验,作者上来就进行消融实验的目的是在于本文中引入了诸多区别于传统方法的特色模块,这些特色模块在方法中的具体贡献则主要通过消融实验体现,从图3能够看出,通过模块的消融,很好的体现了每个特色模块(如回环检测,优化)对于本方法在精度,误差控制各个方向的贡献程度。图4则体现了本文在渲染过程中的高质量,在PSNR,LPIPS等各项指标上都能够取得不错的数值。

图5|公开数据集追踪精度实验


图6|对比实验
图5与图6则是在公开数据集上的追踪实验以及对比实验,图5可以看出在公开数据集上,本文方法能够取得非常不错的成绩,而对比实验则能够击败最近的一众SOTA方法,并且本文还有一个优势,就是可以免除相机参数标定的过程,这是其他方法都不具备的,这些实验不仅能够体现本文庞大的工作量,也能够体现本文方法出色的性能以及作者对于此工作的信心。

图7|深度可视化渲染

图8|深度恢复可视化实验
图7与图8则为主要是围绕着深度恢复展开的实验,3DGS和NeRF等方法在渲染时虽然能够恢复很好的物体表面RGB和纹理,但是对于深度的估计可谓是一团糟,毕竟缺少直接针对深度的监督手段,而SLAM的加入则很大程度上改进了这一缺陷,因此从图7可以看出,即便是渲染的新视角场景,深度的恢复也相当不错,而图8则能够进一步通过Ground Truth作为参考,非常清晰的体现了本文方法在深度恢复方面具备的突出优势。

该研究将密集的端到端SLAM系统与照片级真实感渲染器相结合,并系统地分析了常见的设计选择。在常见的基准测试中,作者的框架达到了最先进的结果。通过集成最新的单目深度先验,成功地缩小了单目和RGBD SLAM之间的差距,无论是在里程计还是渲染方面。实验表明,在这一层次上,照片级真实感渲染和精确几何重建可以作为互补目标进行优化,其中提升渲染性能会以几何精度的下降为代价。同时,基于渲染目标的优化并未在自然场景中显著提升跟踪器的性能。该框架具有灵活性,能够无缝地重建具有未知内参的实际视频。展望未来,研究者希望该Python框架能够促进神经网络与SLAM结合的快速实验和进一步研究。近期的基础模型允许直接从图像推断三维场景,而无需测试时优化。集成这类模型为未来的研究提供了一个令人兴奋的方向。此外,将系统扩展到更大、更复杂的场景也是一个有趣的方向。

发表回复