2024-05-29 实时渲染快100倍!清华新SOTA:“高斯时光机”无惧外观长时间复杂变化的场景

何谓“时光机”?

3D Gaussian Splatting (3DGS)的应用扩展到了动态场景,同时保持了实时渲染速度,展示了其对不同环境条件和渲染需求的适应性。然而当训练图像在不同的天气和光照条件下拍摄时,会出现一个显著的挑战。

  • 尽管一些基于NeRF的方法(如NeRF-W, CLNeRF)展示了分离外观变化的能力,但计算成本限制了渲染速度。
  • 尽管3DGS及其变体在捕捉有限范围内或短时间内的场景动态方面表现出色,但重建具有不同外观的场景仍然是一个挑战。一个简单的方法是为每种外观单独训练模型,但这由于额外的训练成本而效率低下。

Gaussian Time Machine(GTM)是一种用于处理具有极大外观变化的场景的实时渲染方法。首次尝试在实时中建模长期变化

  • 在具有挑战性的现实世界数据集上的广泛实验表明,GTM在渲染质量和效率方面优于最先进的动态场景新视图合成方法。
  • GTM可以将外观变化与几何分离,从而可以通过GTM实现不同外观之间的平滑过渡

GTM使用使用轻量级神经网络预测初始高斯的属性。然后将时间嵌入向量添加到不透明度和颜色编码器的输入中。进一步将渲染颜色分解为静态项和动态项。通过这样的设计,可以在保持几何一致性的同时有效地重建具有不同外观的场景。GTM在渲染质量方面达到了最先进的水平,并且在使用图形卡时可以以80FPS的速度进行渲染,比基于NeRF的方法快100倍。

具体方法

建模变化的高斯

时间变化场景中的可见性变化是常见的,这种变化无法通过在整个时间范围内使用固定数量的初始高斯来建模。为了解决这个挑战,有必要动态地调整初始高斯的数量,以使模型适应复杂的场景变化。

时间编码方案

在基于3DGS的神经渲染中,初始高斯的五个时间相关属性应通过编码器进行调整。主要有三种类型的时间编码器:

  • 概率编码器
  • 连续映射编码器
  • 离散嵌入编码器。

分解颜色混合

颜色以分解的方式渲染。为了公式化这种分解,我们参考了基于物理渲染的颜色形成理论。在执行光线追踪时,物体的颜色由物体本身的颜色和来自环境的反射组成。在具有长期变化的场景中,通常是光照或天气随时间变化,而物体保持不变。

受这种光照形成模型的启发,将颜色分为静态项动态项

  • 静态项在时间步长内保持不变,由时间不变的MLP计算
  • 动态MLP将时间嵌入作为输入,以建模变化的环境光照

在颜色形成模型中,物体的材质影响反射环境光在渲染颜色中的占比。例如,金属表面主要显示周围环境的颜色,而木质表面主要显示其自身的颜色。为了建模这种效果,我们使用另一个MLP来估计一个混合系数,以自适应地混合这两个项:

在颜色形成模型中,物体的材质影响反射环境光在渲染颜色中的占比。例如,金属表面主要显示周围环境的颜色,而木质表面主要显示其自身的颜色。为了建模这种效果,我们使用另一个MLP来估计一个混合系数,以自适应地混合这两个项:

复合颜色计算如下:

最后,神经初始高斯的颜色根据由累积不透明度计算的权重进行混合

优化

3DGS通过使用梯度下降法解决优化问题进行训练:

损失函数:

实验效果

基线方法

  • NeRF in the wild (NeRF-W):一种NeRF的变体,能够在遮挡和光照条件变化下重建静态中心物体。
  • CLNeRF:一个时间变化场景的持续学习框架,也提出了WAT基准。
  • Deformable-3DGS:一种3DGS的扩展,通过变形场和轻量级MLP计算初始高斯的运动,假设初始高斯的数量随时间不变,适用于从视频快照中重建动态场景。
  • 4DGS:3DGS的另一种扩展,通过预测时间变化初始高斯的4D联合分布,将其动态性整合到可微高斯渲染函数中。

GTM在渲染质量和效率上结合了多方面的优势。相比于使用嵌入向量建模长期视觉变化的NeRF基方法,GTM由于改进的初始高斯表示能力,能够重建细粒度细节。相比于用于动态场景的3DGS基方法,GTM能够将外观变化与几何结构分离,并控制初始高斯的数量,从而实现最先进的渲染质量。在存储空间方面,GTM也更为高效,每个场景的平均存储空间不到100MB。

定量结果显示,GTM在渲染质量和实时渲染速度方面均达到了最先进的性能 。

总结一下

Gaussian Time Machine (GTM)是一种用于处理时间变化场景的新视图合成方法,用于解决可见性变化和不连续变化的挑战。GTM采用了Scaffold-GS编码网络,并通过时间嵌入向量增强,以编码神经高斯的时间变化属性:

  • 细粒度的外观变化:实时调整神经高斯的不透明度
  • 对场景的理解:颜色预测头分解为动态和静态部分
  • 外观模型是可控:插值嵌入向量,实现不同风格之间的平滑外观过渡

GTM实现了快速训练和实时渲染,能够处理在长时间跨度内具有复杂变化的场景,在挑战性的现实世界数据集上,其性能优于基于NeRF和3DGS的方法。

局限:GTM通过动态不透明度控制来处理物体的可见性变化,这是一种近似方法,并且不符合物理定律,理解物理运动并在变化的外观中生成物理一致的渲染结果是优化方向。

参考

[1] Gaussian Time Machine: A Real-Time Rendering Methodology for Time-Variant Appearances

[2] Scaffold-gs: Structured 3d gaussians for view-adaptive rendering

[3] 4d gaussian splatting for real-time dynamic scene rendering

[4] Deformable 3d gaussians for high-fidelity monocular dynamic scene reconstruction

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论