2025-08-27 超越OmniRe！中科院DriveSplat：几何增强的神经高斯驾驶场景重建新SOTA

原文链接：https://mp.weixin.qq.com/s/PHVEA9NYDSg-DlPIhI3eng

自动驾驶场景的真实闭环仿真是近两年学术界和工业界的一大研究方向。比如场景中快速移动的车辆、运动的行人以及大规模的静态背景重建都是实际中需要考虑的因素。

而近两年的主流方法均使用动静态元素解耦的方式来解决运动模糊的问题，但是这种方式也存在一个明显的缺陷：解耦的策略忽视了与场景中充分的几何关系相结合的背景优化，并且过度依赖Gaussian点拟合训练视角。导致这些模型在渲染新视角时鲁棒性有限，并且缺乏精确的几何表示~

为了解决上述问题，中科院的团队提出了DriveSplat，这是一种基于神经高斯表示并具有动静态解耦的高质量驾驶场景重建算法。为了更好地适应驾驶视角主要呈现的线性运动模式，采用了一种区域划分的体素初始化方案，将场景划分为近、中、远三个区域，以增强近距离细节的表示。并且引入了可变形的神经高斯（deformable neural Gaussians）来建模非刚性动态参与者（actors），其参数通过一个可学习的形变网络进行时间上的调整。整个框架进一步由预训练模型提供的深度和法线先验进行监督，从而提升了几何结构的准确性。DriveSplat在Waymo和KITTI数据集上进行了评测，在驾驶场景的新视角合成任务中展现了最先进的性能。

论文标题：DriveSplat: Decoupled Driving Scene Reconstruction with Geometry-enhanced Partitioned Neural Gaussians
论文链接：https://arxiv.org/abs/2508.15376

简介

自动驾驶场景的三维仿真可以极大地促进自动驾驶功能的闭环测试。此外，它还允许灵活地构建复杂的交通环境，可用于训练感知和决策模型。与传统的倾斜摄影或人工构建的仿真环境相比，三维重建和新视角合成（NVS）技术能够从二维图像输入中重建三维场景，在便捷性和真实性方面都具有优势。

在相关领域，NeRF通过光线采样引入了隐式场景重建，为三维重建领域提供了一种新的技术范式。三维高斯点阵（3D-GS）则通过使用高斯椭球体对场景进行显式表示，进一步提高了重建效率，有效增强了渲染速度。这些方法在以物体为中心的场景和小型室内环境中取得了令人鼓舞的成果。后续的工作进一步提高了重建对视角变化的鲁棒性，并增强了对大规模场景的可扩展性。其中，神经高斯表示已成为一种有效的方法，在新视角合成质量和重建效率之间取得了平衡。然而，由于存在快速移动的车辆（难以准确捕捉，从而在场景中引入运动模糊），驾驶场景中的三维重建面临着更大的挑战。为了解决这些挑战，StreetGS和DrivingGaussian采用了动静解耦策略，有效地将动态前景参与者与静态背景的重建分离开来。后续研究开始优化非刚性动态参与者、精化动态实体的轨迹，并探索利用光流或语义进行动态解耦的方法。然而，这些方法仍然依赖于原始的3D-GS表示来进行背景重建，这在具有挑战性的新视角合成中缺乏鲁棒性，并且未能充分解决几何准确性问题。

针对上述关键差距，我们的工作旨在为动态自动驾驶场景提供一个视角鲁棒且几何精确的重建框架。与通过监督稳步提升渲染效果的训练视角不同，新视角增加了变异性，对一致的场景重建提出了挑战。3D-GS系列模型通过增量添加高斯椭球体来提升在训练视角下的渲染性能；然而，这可能导致冗余的高斯椭球体，当从其他视角观察时，会产生模糊和噪声。以往针对驾驶场景的重建方法依赖于激光雷达（LiDAR）进行深度监督，但LiDAR无法提供像素级的深度真值（ground truth），尤其是在高层建筑和远处物体上缺乏有效的监督。此外，这些方法未能充分解决重建模型中表面质量的优化问题，导致法线图结果不佳，如图1所示。

为了解决这些相互强化的挑战，我们提出了DriveSplat，这是一种基于神经高斯表示并具有动静解耦的视角鲁棒重建框架。以由SFM和LiDAR融合的点云为anchor，我们将动态点云从静态背景中分离出来，并用它们分别初始化前景参与者和背景表示。然后在这些空间锚点上构建一个基于八叉树的分区体素结构，其多级体素表示对应于不同的细节层次（LOD）。驾驶场景通常在近程和中程表现出更密集的点分布。为了更好地捕捉这些区域的细粒度细节，我们估计场景的主轴，并使用聚类算法将其分割为近、中、远三个区域。近区和中区的体素尺寸被细化，以更好地适应密集的点分布。对于场景中的动态参与者，我们使用边界框信息将每个重建的实例从局部坐标系转换到全局坐标系。对于行人和骑行者等非刚性动态参与者，我们额外设计了一个形变网络，通过随时间调整其属性（例如，位置、旋转、尺度）来建模神经高斯的时间演化。为了进一步提高几何质量，我们使用预训练单目模型预测的稠密深度图和表面法线图对重建过程进行监督，确保渲染中的几何一致性。总之，我们的主要贡献总结如下：

将神经高斯表示引入驾驶场景重建，并提出了一种近-中-远分区的背景优化模块，该模块增强了近距离细节的表示，显著提升了新视角合成任务的性能。
采用了一种动静解耦的场景表示策略，统一使用神经高斯来建模静态背景和动态参与者。此外，我们引入了可变形的神经高斯来重建非刚性参与者。
研究了深度和法线先验在提升渲染质量和几何准确性方面的作用。我们的方法在Waymo和KITTI数据集上的NVS任务中均达到了最先进的性能。

相关算法回顾

大规模场景重建

原始的NeRF 由于近景模糊和远景边缘锯齿状的问题，在处理大规模场景时表现不佳。后续的改进包括使用多尺度IPE的Mip-NeRF 、应对光照变化的NeRF-W，以及分别训练局部块的Block-NeRF 。最近，基于3D-GS的方法在重建速度和质量上都取得了显著突破。最初的高斯点阵是为以物体为中心的场景量身定制的，而后续的研究已将其扩展到大规模场景。神经高斯结合了高斯点阵和神经场的优势，实现了具有鲁棒视角不变性的实时渲染。Hierarchical-GS为驾驶场景引入了分层结构，以优化实时重建效果，并结合分块策略来选择不同层级。在城市场景重建方面，一些方法提出将点云划分为单元，并引入细节层次来优化重建效率和细节表现。上述方法忽略了动态物体的优化，而我们的方法通过解耦动态和静态成分来提升重建效果。

动态场景重建

传统的重建方法主要关注静态场景，无法表示具有时间变化的动态场景或物体，从而导致运动模糊等问题。NeRF利用多层感知机（MLP）对静态环境进行隐式建模。这一概念已通过引入形变场被扩展到可动画场景。或者，某些策略将可动画场景概念化为4D辐射场，但代价是由于光线-点采样和体渲染导致的巨大计算资源消耗。为缓解这些问题，已设计出加速技术用于描述动态环境。一些方法包括使用几何先验、投影MLP衍生的映射，或实现基于网格/平面的架构来提升速度和效率。一些工作将3D高斯应用于动态场景。Luiten等人对多视角场景进行逐帧训练，而Yang等人使用形变场来表示物体的时间变化。4D-GS 提出使用多分辨率六平面来编码形变运动。我们借鉴了上述4D重建方法，采用形变场来为非刚性参与者建模神经高斯的时间演化。

三维重建中的几何优化

深度和法线监督通过提高几何准确性和表面朝向，增强了场景重建，能够高保真地捕捉复杂场景。一些方法提出整合深度先验来引导重建过程。后续工作提出将深度监督嵌入NeRF框架，以提升训练效率并减少对多视角输入的依赖。MVS-Gaussian将多视角立体视觉（MVS）与高斯点阵结合，以改善稀疏视角设置下的重建。DN-Splatter 提出了一种创新方法，利用深度-法线融合来增强复杂环境中的点云精度，而2D-GS利用2D深度图来优化高斯点阵技术，以实现实时应用中的更高效重建。在驾驶场景中，GaussianPro引入了一种渐进传播策略，专注于优化几何属性。而Desire-GS提出了结合几何先验以增强监督，但面临训练速度极慢的问题。借鉴上述方法，我们利用深度和法线先验来引导神经高斯重建，在保持重建效率的同时提升几何质量。

算法详解

如图2所示，DriveSplat的输入包括RGB图像、一个初始化的3D点云，以及由数据集提供的动态参与者的边界框。在监督优化阶段，使用由预训练模型预测的深度和法线先验。

驾驶场景中的神经高斯初始化

动态参与者表示

几何增强优化

实验结果分析

数据集

Waymo 提供了来自城市和郊区多种场景的多样化传感器数据。我们选择了8个在不同条件下录制的序列，包括不同的天气（例如，有雾和晴天）和交通场景（例如，城市慢速道路和高速公路）。此外，为了验证非刚性参与者重建性能，我们还选择了OmniRe中使用的两个序列进行消融研究。

KITTI 包含了许多光照变化显著的场景，从高曝光区域到阴影区域，这对重建构成了巨大挑战。因此，在KITTI数据集的序列上评估重建性能，可以对模型在不同环境条件下的鲁棒性进行一次严格的测试。我们选择了3个包含动态非刚性参与者和具有挑战性背景的序列来进行对比实验。

实现细节

我们通过从原始序列中每四帧采样一帧，并将其排除在模型训练之外，来评估方法在训练视角重建和新视角合成方面的性能。在单个NVIDIA L20 GPU上，训练一个场景30K次迭代需要68分钟，远比Desire-GS的180分钟以上更高效（见附录表2）。

基准评估

Waymo上的结果。 我们在Waymo数据集上（表1）将我们的方法与现有方法进行了评估，这些方法包括静态方法和动态方法，并使用了重建和新视角合成两种指标。我们的方法在PSNR和LPIPS重建指标上均超越了所有基线，展示了高精度。尽管StreetGS和 OmniRe在重建指标上表现良好，但它们在新视角合成方面表现不佳，凸显了它们在处理视角转换时的局限性。相比之下，DriveSplat在新视角合成任务中表现出色，在所有三个评估指标上均优于所有基线。视觉分析（图4）突显了DriveSplat在车辆渲染中无伪影的优势、对具有挑战性的静态背景细节的增强清晰度，以及对动态车辆的精确描绘。我们进一步展示了在更具挑战性的设置下的新视角合成对比结果，其中自车（ego-car）轨迹向左平移1.0米，向上平移1.0米，如图6所示。

KITTI上的结果。 DriveSplat的性能也在KITTI数据集上进行了评估。如表2所示，DriveSplat在重建和新视角合成任务中均优于基线方法。图5展示了渲染结果，其中DriveSplat表现出更优的背景清晰度和对动态车辆的精确渲染。与OmniRe相比，我们的方法在新视角合成方面表现出更好的性能，尤其是在保留背景细节方面，如图5第二行所示。

消融实验

初始化模块的消融研究。 我们评估了不同初始化方法的影响，如表3所示。LiDAR提供了最精确的点云，但对高层建筑和远处区域的覆盖不足。尽管SfM提供的点更稀疏，但它提供了更广泛的场景覆盖，因此略优于单独使用LiDAR。DUSt3R产生了最密集的点云，但由于与真实世界坐标在尺度和位置上的错位，即使经过变换，其性能也未达到最优。因此，我们选择了SfM+LiDAR组合进行初始化，这产生了最佳的渲染结果。

尽管已经验证了点云初始化，我们还对分区背景优化模块进行了消融研究。我们将我们的方法在有和没有背景优化模块的情况下的性能进行了比较，如表4所示。结果表明，BPO模块可以提升方法的性能，这对于Octree-GS也同样适用。

结论

本文提出了DriveSplat，这是一种用于驾驶场景三维重建的新方法，它提升了静态和动态元素的准确性。通过将分区背景优化模块与深度和法线先验相结合，我们的方法能够为大规模背景捕捉详细的场景几何。通过跟踪移动车辆的姿态，并对非刚性参与者应用可变形高斯，动态元素实现了更精确的重建。DriveSplat在两个自动驾驶数据集上的新视角合成任务中达到了最先进的性能，实现了高质量的几何表示和大规模场景重建。