街道场景的逼真3D重建是开发自动驾驶现实世界模拟器的一项关键技术。尽管神经辐射场(NeRF)在驾驶场景中具有有效性,但由于3D高斯Splatting(3DGS)的速度更快且表示更明确,它成为了一个有前景的方向。然而,大多数现有的street 3DGS方法需要跟踪的3D车辆bounding box来分解静态和动态元素以实现有效重建,这限制了它们在户外场景和开集中的应用。为了在没有昂贵标注的情况下实现高效的3D场景重建,这里提出了一种自监督街道高斯(S3Gaussian)方法,用于从4D一致性中分解动态和静态元素。使用3D高斯来表示每个场景以保持其明确性,并进一步用时空场网络来紧凑地建模4D动态。在Waymo-Open数据集上进行了广泛的实验,以评估提出的方法有效性。S3Gaussian展示了分解静态和动态场景的能力,并在不使用3D注释的情况下取得了最佳性能。
这也是全球首个开源的自动驾驶场景3D GS工作,代码:https://github.com/nnanhuang/S3Gaussian/。
当前领域背景一览
近年来,自动驾驶取得了显著进展,并在其pipeline的每个阶段都开发了各种技术,包括感知、预测和规划。随着端到端自动驾驶的出现,它直接从传感器输入输出控制信号,自动驾驶系统的开环评估变得不再有效,因此迫切需要改进。作为一种有前景的解决方案,真实世界的闭环评估需要用于可控视图的传感器输入,这推动了高质量场景重建方法的发展。
尽管在小规模场景的光照真实重建方面做出了许多努力,但驾驶场景的大规模和高动态特性对3D场景的有效建模提出了新的挑战。为了适应这些,大多数现有工作采用跟踪的3D bounding box来分解静态和动态元素。然而,3D轨迹的昂贵标注限制了它们从野外数据进行3D建模的应用。EmerNerf通过同时学习场景流并使用它来连接4D NeRF场中的对应点进行多帧重建,解决了这个问题,实现了无需明确边界框的静态和动态目标之间的分解。然而,由于低延迟和明确表示的需求,3D驾驶场景建模正经历着从基于NeRF的重建到3D高斯Splatting的转变。虽然EmerNerf展示了有前景的结果,但它只能用于基于NeRF的场景建模,其训练和渲染需要很长时间。如何在没有明确的3D监督的情况下实现城市场景的3D高斯Splatting仍然不明确。
为了解决上述问题,我们提出了一个名为S3Gaussian的自监督街道高斯方法,为动态街道场景提供了一个不需要3D监督的稳健解决方案。为了处理驾驶场景中固有的复杂时空变形,S3Gaussian引入了一个前沿的时空场来进行自监督的场景分解。这个时空场结合了一个多分辨率Hexplane结构编码器和一个紧凑的多头高斯解码器。Hexplane编码器被设计用来将4D输入网格分解为多分辨率、可学习的特征平面,有效地从动态街道场景中聚合时空信息。在优化过程中,多分辨率Hexplane结构编码器有效地分离了整个场景,为每个场景实现了规范表示。动态相关特征存储在时空平面内,而静态相关特征则保留在仅空间平面中。利用密集编码的特征,多头高斯解码器从规范表示中计算出变形偏移量。然后,这些变形被添加到原始3D高斯的属性中,包括位置和球谐函数,从而允许根据时间序列动态改变场景表示,主要贡献总结如下:
- S3Gaussian是第一个能够在没有额外标注数据的情况下,成功分解街道场景中动态和静态3D高斯的方法。
- 为了模拟驾驶场景中复杂的变化,引入了一个高效的空间-时间分解网络,以自动捕获3D高斯体的变形。
- 在具有挑战性的数据集上进行了全面的实验,包括NOTR和Waymo。结果表明,S3Gaussian在场景重建和新视图合成任务上达到了最先进的渲染质量。
3D高斯体Splatting技术。最近,3D高斯Splatting(3DGS)技术的突破彻底改变了场景建模和渲染。利用显式3D高斯体的强大功能,3DGS在新视图合成和实时渲染方面取得了最佳效果,同时相比传统的表示方法(如网格或体素)显著降低了参数复杂性。这项技术无缝集成了基于点的渲染和splatting的原理,通过基于splatting的栅格化促进了快速渲染和可微分计算。
自动驾驶模拟的街道场景重建。已经投入了大量努力来从真实场景中捕获的自动驾驶数据中重建场景。现有的自动驾驶模拟引擎,如CARLA 或 AirSim,因创建虚拟环境需要昂贵的手动标注以及生成数据的非现实性而受到限制。包括NeRF和3DGS 在内的新视图合成(NVS)技术的迅速发展,在自动驾驶领域引起了广泛关注。许多研究探讨了这些方法在重建街道场景中的应用。Block-NeRF 和Mega-NeRF 提出了将场景分割成不同的块进行单独建模。Urban Radiance Field 通过结合LiDAR的几何信息来增强NeRF的训练,而DNMP 则利用预训练的可变形网格原语来表示场景。Streetsurf 将场景分为近景、远景和天空类别,为城市街道表面提供了卓越的重建结果。为了建模动态城市场景,NSG 将场景表示为神经图,而MARS 则使用单独的网络来模拟背景和车辆,建立了一个实例感知的模拟框架。随着3DGS 的引入,DrivingGaussian 提出了复合动态高斯图和增量静态高斯图,而StreetGaussian 则优化了动态高斯体的跟踪姿态,并引入了4D球面谐波来处理跨帧变化的车辆外观。
上述方法不仅存在训练时间长、渲染速度慢的问题,而且无法自动区分动态和静态场景。因此,我们提出了S 3Gaussian,该方法能够在没有额外标注的情况下,以自监督的方式区分动态和静态场景,并对动态城市街道场景进行高保真度和实时神经渲染,这对于自动驾驶模拟至关重要。
S3Gaussian
重建任务的目标是从移动车辆捕获的一系列图像中学习街道动态环境的时空表示。然而,由于观察视角数量有限以及为动态和静态目标获取真实标注的高成本,这里旨在以完全自监督的方式学习静态和动态组件的场景分解,避免了对包括动态目标的边界框、场景分解的分割掩码以及运动感知的光流等额外标注的依赖。

4D 高斯表示
如图2所示,我们的场景表示包括3D高斯分布G和一个时空场网络F。为了描绘静态场景,3D高斯分布由协方差矩阵Σ和位置向量X表示,这被称为几何属性。为了稳定的优化,每个协方差矩阵进一步分解为缩放矩阵S和旋转矩阵R:



其中J是透视投影的雅可比矩阵,W是视图变换矩阵。每个像素的颜色是通过N个有序点使用α混合来计算的:


Spatial-temporal Field Network





自监督优化


实验结果
数据集。NOTR数据集是整理的Waymo Open数据集的一个子集,包含了许多具有挑战性的驾驶场景:自车静止、高速、曝光不匹配、黄昏/黎明、阴暗、下雨和夜间场景。相比之下,许多带有激光雷达数据的公共数据集存在严重的失衡问题,例如nuScenes和nuPlan,它们主要展示的是少数动态对象的简单场景。因此,利用NOTR的动态和静态数据集,总共64个场景,以获得一个平衡且多样化的标准来评估静态和动态重建。此外,由于大多数基线方法都是基于NeRF的,为了确保对方法性能的公平评估,与当前最先进的基于高斯的方法StreetGaussian进行了比较。遵循StreetGaussian使用的数据集配置,从Waymo Open数据集中选择了六个场景,这些场景以复杂的环境和显著的目标运动为特点。
基线方法。将我们的方法与包括基于NeRF的模型和基于3DGS的模型在内的最先进方法进行了评估。MARS是一个基于NeRF的模块化模拟器,利用2D框分别训练NeRF以处理静态和动态对象。NSG学习潜在表示以使用共享解码器对移动目标进行建模。EmerNeRF也建立在NeRF的基础上,但通过优化流场来自我监督动态场景的建模,这代表了动态驾驶场景表示的自我监督学习中的当前最佳技术(SOTA)。3DGS模型采用各向异性3D高斯椭球作为明确的3D场景表示,在静态场景的各种任务中取得了最强的性能。StreetGaussian是最新的高斯基方法,将时间引入SH系数中,也达到了SOTA性能,尽管也利用了2D跟踪框。为了公平比较,也对3DGS应用了激光雷达点云初始化,对3DGS和MARS应用了深度正则化,以反映我们的方法。
表1:在Waymo-NOTR数据集上,提出的方法与现有最佳方法(SOTA)的总体性能对比。”PSNR*”和”SSIM*”分别表示动态对象的PSNR和SSIM。最佳结果和次佳结果分别用粉色和蓝色表示。

在Waymo-Street数据集上的定性比较,所有结果均来自新视图的合成。与StreetGaussian相比,提出的方法显示出更强的自监督重建远处动态目标的能力,并且对场景细节的变化更为敏感。



参考
[1] S3Gaussian: Self-Supervised Street Gaussians for Autonomous Driving.

发表回复