2024-09-26 突破3DGS泛化和实用壁垒!GS-Net:首个具有跨场景泛化能力的即插即用3DGS模块

神经辐射场(Neural Radiance Fields,NeRF)在该领域取得了显著的进展,通过高保真渲染,不需要明确建模3D场景、纹理或光照。然而,NeRF的随机采样和体积渲染过程计算量大,严重影响了其性能,导致渲染速度较慢。为了解决实时神经渲染的需求,提出了3D高斯散射(3DGS)方法,该方法通过高斯椭球来表示场景,并利用快速光栅化技术生成高质量图像。

3DGS的一些痛点

  • 通常只处理单个场景,并通过运动结构(Structure from Motion,SfM)技术从稀疏但几何精确的点云中初始化高斯椭球参数,随后使用光度损失函数进行迭代优化和密度控制。这种方法需要针对每个场景构建单独的模型,缺乏跨场景泛化能力。
  • 对从SfM点云启发式初始化的高斯椭球高度敏感。如果稀疏点云无法捕捉场景细节,这种依赖性会阻碍进一步优化并限制其实用性。

本文介绍的GS-Net[1]是一个可泛化的即插即用的3DGS模块。该模块使用稀疏的点云作为输入,生成更加稠密的高斯椭球,允许在不同场景之间进行训练和测试,克服了传统3DGS的场景边界限制。作为一个即插即用的模块,GS-Net具有很强的实用性和兼容性,适用于所有3DGS框架。为了全面评估GS-Net在自动驾驶场景中的性能,创建了CARLA-NVS数据集,支持从12个摄像机视点进行训练和评估。

主要贡献如下:

  • 提出了GS-Net,这是一个可泛化的即插即用3DGS模块,旨在从稀疏的SfM点云生成稠密的初始高斯椭球及其参数。据作者所知,这是第一个能够直接从稀疏点云中学习高斯椭球的网络。
  • GS-Net作为即插即用的模块,具有很强的实用性和兼容性,适用于3DGS框架及其衍生模型。
  • 开发了CARLA-NVS数据集,这是首个提供12个稠密视图图像的数据集,能够全面评估场景重建和渲染质量,并支持自动驾驶感知任务。

具体方法

在原始的3D高斯散射(3DGS)方法中,高斯椭球的初始属性是通过稀疏的运动结构(SfM)点云启发式生成的。这种场景特定的初始化策略限制了方法的泛化能力,并且忽略了不同场景的独特特征。此外,它难以在纹理不足的区域捕捉细节,由于输入的稀疏性,导致模型在处理新视点或远距离场景时的鲁棒性降低。

如图1所示,GS-Net以稀疏点云为输入,增强了跨场景的泛化能力和鲁棒性。GS-Net根据不同场景的具体特征生成预测的稠密高斯椭球,能够更好地表示场景特征并减少随机性。

初步概念

3D高斯散射(3DGS)方法使用创新的高斯原语来表示场景。一组高斯原语表示为:

初始参数定义

GS-Net中使用的基本参数,包括稀疏点云和预测椭球数组,以及密集点云和密集椭球数组。前者是模型的输入和输出,而后者用于构建训练的真实数据。

网络模型

GS-Net应用于生成更高质量的初始高斯椭球,取代原始3DGS的过程并增强跨场景的泛化能力。如图1所示,模型的输入是通过COLMAP重建的稀疏点云,输出是预测的密集椭球数组。模型的各个组件,包括编码器、解码器以及应用于不同高斯原语的激活函数。

数据集 CARLA-NVS

为了全面评估场景重建质量以及GS-Net在自动驾驶场景中的表现,使用CARLA模拟器构建了一个名为CARLA Autonomous Vehicle Scene Dataset with Novel Viewpoints (CARLA-NVS) 的自定义数据集,该数据集包含了新的视点。目前开源的自动驾驶数据集由于车辆上的摄像头位置固定,限制了从未见过的视点进行场景重建的评估。因此,目标是生成一个综合了动态和静态场景,具有多视点和多传感器的全面数据集。这个数据集提供了新的自由视点,更适合验证模型在新视点合成中的性能。

场景设置

该数据集涵盖了各种典型的驾驶环境,包括城市街道、乡村道路和高速公路。CARLA-NVS中的动态场景是通过CARLA的路径规划系统生成的,包含移动车辆、行人和自行车,模拟复杂的交通状况。静态场景只包含停泊的车辆和固定基础设施(如路标、树木和建筑物),用于评估静态条件下的重建质量。此外,所有数据都在两种天气条件下(晴天和阴天)收集,进一步增强了数据集的多样性。

传感器配置

为了确保CARLA-NVS数据集的多样性和丰富性,在场景中使用了以下类型的传感器来收集多种数据:

  • RGB摄像机传感器:以1920×1080的分辨率捕捉环境的彩色图像。
  • 深度摄像机传感器:提供传感器与场景中物体之间的深度信息,分辨率为1920×1080。
  • 语义分割摄像机传感器:为场景中的每个像素生成语义标签,分辨率为1920×1080。
  • LiDAR传感器:提供360度的LiDAR传感器,捕获每秒生成3百万点的3D点云,最大探测范围为200米,具有128个扫描通道。

如图3所示,在传统传感器设置中,传感器位于特定视角,如1、3、5、7、9和11,视角之间存在间隙。为了改进数据集中的覆盖范围,我们在位置2、4、6、8、10和12增加了传感器。因此,车辆配备了12个RGB、深度和语义分割摄像机,每个摄像机的视场角为90度,均匀分布在30度的间隔处。此外,车辆顶部中心还安装了一个LiDAR传感器,以增强3D环境映射。总体而言,这种配置提供了360度的覆盖,能够从未见过的视点进行准确的评估。值得注意的是,该数据集不仅用于3DGS中的新视点评估,还用于多个自动驾驶任务,如鸟瞰图感知和占用检测。

基于以上定义,生成了20个场景。具体而言,在每个场景中,所有传感器的数据同时以10 Hz的频率收集,持续10秒(大约100米的街道驾驶),每个传感器生成100帧数据。每个场景生成的数据包括1200张RGB图像、1200张深度图像、1200张语义分割图像和3000万LiDAR点云,如图2所示。收集的数据经过预处理以确保统一性和可用性。所有图像数据都以PNG格式存储,点云数据以PCD格式存储。每帧数据都带有时间戳,以确保在后续分析中的精确对齐。

实验效果

总结一下

GS-Net是一种可泛化的即插即用3DGS模块,能够在自动驾驶场景中实现跨场景的渲染,具有强大的特征提取和几何表示能力。作为一种即插即用的解决方案,GS-Net展示了与3DGS及其衍生模型的卓越实用性和兼容性。为了评估其性能,开发了CARLA-NVS数据集,支持12个摄像机视点。实验结果表明,GS-Net显著提升了3DGS在常规和新视点下的渲染质量,同时保持了相当的渲染速度。

未来工作:优化泛化能力和精度,并计划在论文被接受后发布CARLA-NVS数据集。

参考

[1] GS-Net: Generalizable Plug-and-Play 3D Gaussian Splatting Module

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论