2024-05-14 SIGGRAPH’24|耗时和内存统统减半!浙大开源RTG-SLAM:大规模实时重建GS系统

划重点:“实时”、“大规模

实时大规模三维重建可以广泛应用于虚拟现实/增强现实、自主机器人、带有即时反馈的交互式扫描等场景。随着RGBD SLAM实时三维重建领域的快速发展,演进路线为传统方法、基于神经辐射场(NeRF)、三维高斯:

  • 传统方法即经典的稠密SLAM主要零用点云、表面元素、符号距离函数等各种表面表示,虽然精度不错,但是很少考虑重建的渲染效果
  • 基于NeRF作为隐式场景表示,在渲染的效果上得到了令人印象深刻的结果。但因为是基于耗时的体积渲染,在真实场景上都很难达到实时性能;另一方面,对于内存的高要求,阻碍了大规模场景重建的落地。
  • 火爆的3D高斯是最热的研究方向,让大家看到了渲染质量和速度可以兼得的可能性。不过目前不仅主要用于离线重建场景,高内存和计算成本依然卡脖子。

RTG-SLAM是一个利用RGBD相机、基于3D高斯表达、可用于大规模环境实时3D重建的系统。直击标题难点“实时”和“大规模”,核心出装就2个:

  • 高效的即时优化方案 搞定“实时”:只对3种类型的像素添加高斯(新观察到的像素、具有较大颜色误差的像素、具有较大深度误差的像素),同时所有高斯分为2类(稳定和不稳定),只对不稳定的高斯进行优化,只渲染由不稳定的高斯占据的像素。
  • 紧凑的高斯表示 搞定“大规模”:强制高斯只存在不透明或几乎透明的状态,前者表达表面和主导颜色、后者适用剩余的颜色。利用单个不透明高斯来表达局部区域,可以避免非必要的多次堆叠,说白了就是减少了高斯数量,同时又尽量保持质量。

通过各种真实大场景的实时重建(面积范围从43平方米-100平方米),RTG-SLAM的运行速度约为目前最先进的基于NeRF的SLAM的2倍,内存成本约为一半!

方法详解

如何紧凑地表达高斯

通过alpha渲染图片:

深度渲染是紧凑高斯表示的关键,其中每个单独的高斯函数可以很好地适应表面的局部区域,而无需使用多个高斯函数。

如图3所示,在alpha混合设置中,单个高斯函数将呈现自高斯中心下降的不同深度值,这不适合单独拟合通常可以近似为平面的局部区域,所以需要以与渲染颜色不同的方式渲染深度。

在线重建流程

一览众多效果

总而言之

RTG-SLAM是一种利用3D高斯表达、用于大规模环境、实时三维重建系统。

优点:

  • 降低内存和计算成本:使用紧凑的高斯表达方法
  • 实时优化高斯:分像素类型添加高斯

限制:

  • 渲染质量不可避免地降低:为实现实时的大规模重建,仅使用不透明的高斯和透明的高斯来表示场景
  • 颜色突变区域优化效果不佳:反射或透明材料可能会导致在不同视角下表面颜色大幅变化,使一些高斯经常在两种状态之间切换

参考

[1] RTG-SLAM: Real-time 3D Reconstruction at Scale Using Gaussian Splatting

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论