2024-09-26 突破3DGS泛化和实用壁垒！GS-Net：首个具有跨场景泛化能力的即插即用3DGS模块

神经辐射场（Neural Radiance Fields，NeRF）在该领域取得了显著的进展，通过高保真渲染，不需要明确建模3D场景、纹理或光照。然而，NeRF的随机采样和体积渲染过程计算量大，严重影响了其性能，导致渲染速度较慢。为了解决实时神经渲染的需求，提出了3D高斯散射（3DGS）方法，该方法通过高斯椭球来表示场景，并利用快速光栅化技术生成高质量图像。

3DGS的一些痛点：

通常只处理单个场景，并通过运动结构（Structure from Motion，SfM）技术从稀疏但几何精确的点云中初始化高斯椭球参数，随后使用光度损失函数进行迭代优化和密度控制。这种方法需要针对每个场景构建单独的模型，缺乏跨场景泛化能力。
对从SfM点云启发式初始化的高斯椭球高度敏感。如果稀疏点云无法捕捉场景细节，这种依赖性会阻碍进一步优化并限制其实用性。

本文介绍的GS-Net[1]是一个可泛化的即插即用的3DGS模块。该模块使用稀疏的点云作为输入，生成更加稠密的高斯椭球，允许在不同场景之间进行训练和测试，克服了传统3DGS的场景边界限制。作为一个即插即用的模块，GS-Net具有很强的实用性和兼容性，适用于所有3DGS框架。为了全面评估GS-Net在自动驾驶场景中的性能，创建了CARLA-NVS数据集，支持从12个摄像机视点进行训练和评估。

主要贡献如下：

提出了GS-Net，这是一个可泛化的即插即用3DGS模块，旨在从稀疏的SfM点云生成稠密的初始高斯椭球及其参数。据作者所知，这是第一个能够直接从稀疏点云中学习高斯椭球的网络。
GS-Net作为即插即用的模块，具有很强的实用性和兼容性，适用于3DGS框架及其衍生模型。
开发了CARLA-NVS数据集，这是首个提供12个稠密视图图像的数据集，能够全面评估场景重建和渲染质量，并支持自动驾驶感知任务。

具体方法

在原始的3D高斯散射（3DGS）方法中，高斯椭球的初始属性是通过稀疏的运动结构（SfM）点云启发式生成的。这种场景特定的初始化策略限制了方法的泛化能力，并且忽略了不同场景的独特特征。此外，它难以在纹理不足的区域捕捉细节，由于输入的稀疏性，导致模型在处理新视点或远距离场景时的鲁棒性降低。

如图1所示，GS-Net以稀疏点云为输入，增强了跨场景的泛化能力和鲁棒性。GS-Net根据不同场景的具体特征生成预测的稠密高斯椭球，能够更好地表示场景特征并减少随机性。

初步概念

3D高斯散射（3DGS）方法使用创新的高斯原语来表示场景。一组高斯原语表示为：

初始参数定义

GS-Net中使用的基本参数，包括稀疏点云和预测椭球数组，以及密集点云和密集椭球数组。前者是模型的输入和输出，而后者用于构建训练的真实数据。

网络模型

GS-Net应用于生成更高质量的初始高斯椭球，取代原始3DGS的过程并增强跨场景的泛化能力。如图1所示，模型的输入是通过COLMAP重建的稀疏点云，输出是预测的密集椭球数组。模型的各个组件，包括编码器、解码器以及应用于不同高斯原语的激活函数。

数据集 CARLA-NVS

为了全面评估场景重建质量以及GS-Net在自动驾驶场景中的表现，使用CARLA模拟器构建了一个名为CARLA Autonomous Vehicle Scene Dataset with Novel Viewpoints (CARLA-NVS) 的自定义数据集，该数据集包含了新的视点。目前开源的自动驾驶数据集由于车辆上的摄像头位置固定，限制了从未见过的视点进行场景重建的评估。因此，目标是生成一个综合了动态和静态场景，具有多视点和多传感器的全面数据集。这个数据集提供了新的自由视点，更适合验证模型在新视点合成中的性能。

场景设置

该数据集涵盖了各种典型的驾驶环境，包括城市街道、乡村道路和高速公路。CARLA-NVS中的动态场景是通过CARLA的路径规划系统生成的，包含移动车辆、行人和自行车，模拟复杂的交通状况。静态场景只包含停泊的车辆和固定基础设施（如路标、树木和建筑物），用于评估静态条件下的重建质量。此外，所有数据都在两种天气条件下（晴天和阴天）收集，进一步增强了数据集的多样性。

传感器配置

为了确保CARLA-NVS数据集的多样性和丰富性，在场景中使用了以下类型的传感器来收集多种数据：

RGB摄像机传感器：以1920×1080的分辨率捕捉环境的彩色图像。
深度摄像机传感器：提供传感器与场景中物体之间的深度信息，分辨率为1920×1080。
语义分割摄像机传感器：为场景中的每个像素生成语义标签，分辨率为1920×1080。
LiDAR传感器：提供360度的LiDAR传感器，捕获每秒生成3百万点的3D点云，最大探测范围为200米，具有128个扫描通道。

如图3所示，在传统传感器设置中，传感器位于特定视角，如1、3、5、7、9和11，视角之间存在间隙。为了改进数据集中的覆盖范围，我们在位置2、4、6、8、10和12增加了传感器。因此，车辆配备了12个RGB、深度和语义分割摄像机，每个摄像机的视场角为90度，均匀分布在30度的间隔处。此外，车辆顶部中心还安装了一个LiDAR传感器，以增强3D环境映射。总体而言，这种配置提供了360度的覆盖，能够从未见过的视点进行准确的评估。值得注意的是，该数据集不仅用于3DGS中的新视点评估，还用于多个自动驾驶任务，如鸟瞰图感知和占用检测。

基于以上定义，生成了20个场景。具体而言，在每个场景中，所有传感器的数据同时以10 Hz的频率收集，持续10秒（大约100米的街道驾驶），每个传感器生成100帧数据。每个场景生成的数据包括1200张RGB图像、1200张深度图像、1200张语义分割图像和3000万LiDAR点云，如图2所示。收集的数据经过预处理以确保统一性和可用性。所有图像数据都以PNG格式存储，点云数据以PCD格式存储。每帧数据都带有时间戳，以确保在后续分析中的精确对齐。

实验效果

总结一下

GS-Net是一种可泛化的即插即用3DGS模块，能够在自动驾驶场景中实现跨场景的渲染，具有强大的特征提取和几何表示能力。作为一种即插即用的解决方案，GS-Net展示了与3DGS及其衍生模型的卓越实用性和兼容性。为了评估其性能，开发了CARLA-NVS数据集，支持12个摄像机视点。实验结果表明，GS-Net显著提升了3DGS在常规和新视点下的渲染质量，同时保持了相当的渲染速度。

未来工作：优化泛化能力和精度，并计划在论文被接受后发布CARLA-NVS数据集。

参考

[1] GS-Net: Generalizable Plug-and-Play 3D Gaussian Splatting Module

2024-09-26 突破3DGS泛化和实用壁垒！GS-Net：首个具有跨场景泛化能力的即插即用3DGS模块

发表回复取消回复

Categories

Archives

2024-09-26 突破3DGS泛化和实用壁垒！GS-Net：首个具有跨场景泛化能力的即插即用3DGS模块

发表回复 取消回复

Categories

Archives

发表回复取消回复