划重点:“实时”、“大规模
实时大规模三维重建可以广泛应用于虚拟现实/增强现实、自主机器人、带有即时反馈的交互式扫描等场景。随着RGBD SLAM实时三维重建领域的快速发展,演进路线为传统方法、基于神经辐射场(NeRF)、三维高斯:
- 传统方法即经典的稠密SLAM主要零用点云、表面元素、符号距离函数等各种表面表示,虽然精度不错,但是很少考虑重建的渲染效果
- 基于NeRF作为隐式场景表示,在渲染的效果上得到了令人印象深刻的结果。但因为是基于耗时的体积渲染,在真实场景上都很难达到实时性能;另一方面,对于内存的高要求,阻碍了大规模场景重建的落地。
- 火爆的3D高斯是最热的研究方向,让大家看到了渲染质量和速度可以兼得的可能性。不过目前不仅主要用于离线重建场景,高内存和计算成本依然卡脖子。

RTG-SLAM是一个利用RGBD相机、基于3D高斯表达、可用于大规模环境实时3D重建的系统。直击标题难点“实时”和“大规模”,核心出装就2个:
- 高效的即时优化方案 搞定“实时”:只对3种类型的像素添加高斯(新观察到的像素、具有较大颜色误差的像素、具有较大深度误差的像素),同时所有高斯分为2类(稳定和不稳定),只对不稳定的高斯进行优化,只渲染由不稳定的高斯占据的像素。
- 紧凑的高斯表示 搞定“大规模”:强制高斯只存在不透明或几乎透明的状态,前者表达表面和主导颜色、后者适用剩余的颜色。利用单个不透明高斯来表达局部区域,可以避免非必要的多次堆叠,说白了就是减少了高斯数量,同时又尽量保持质量。
通过各种真实大场景的实时重建(面积范围从43平方米-100平方米),RTG-SLAM的运行速度约为目前最先进的基于NeRF的SLAM的2倍,内存成本约为一半!
方法详解

如何紧凑地表达高斯


通过alpha渲染图片:


深度渲染是紧凑高斯表示的关键,其中每个单独的高斯函数可以很好地适应表面的局部区域,而无需使用多个高斯函数。

如图3所示,在alpha混合设置中,单个高斯函数将呈现自高斯中心下降的不同深度值,这不适合单独拟合通常可以近似为平面的局部区域,所以需要以与渲染颜色不同的方式渲染深度。

在线重建流程



一览众多效果






总而言之
RTG-SLAM是一种利用3D高斯表达、用于大规模环境、实时三维重建系统。
优点:
- 降低内存和计算成本:使用紧凑的高斯表达方法
- 实时优化高斯:分像素类型添加高斯
限制:
- 渲染质量不可避免地降低:为实现实时的大规模重建,仅使用不透明的高斯和透明的高斯来表示场景
- 颜色突变区域优化效果不佳:反射或透明材料可能会导致在不同视角下表面颜色大幅变化,使一些高斯经常在两种状态之间切换
参考
[1] RTG-SLAM: Real-time 3D Reconstruction at Scale Using Gaussian Splatting

发表回复