2025-09-01 北大升级DrivingGaussian++:无需训练,智驾场景自由编辑!

原文链接:https://mp.weixin.qq.com/s/RPzpsBYDH4ZOIdVSFhFr2w

相信做 learning-based 任务的业内人士都有一个共识:数据一直是自动驾驶发展的一个重要基石,数据的多样性和标注的质量很大程度上决定模型的性能和潜力。自动驾驶发展到今天,需要大家用 80% 的精力去解剩下的 20% 的长尾场景,而往往长尾场景的数据采集并不是一件容易的事情,这就诞生了一个细分领域 —— 3D场景编辑。通过3D场景编辑,可以仿真各种真实世界的驾驶条件,从而增强自动驾驶系统的鲁棒性和安全性。

3D场景编辑任务 涵盖多种组成部分,包括风格迁移、运动修改、天气仿真以及目标的添加或移除。然而,这些编辑任务各有各的特点和难点,导致现有的编辑工具往往只能专攻某一项,缺少一个“全能型”的框架。目前常用的办法是先对2D画面进行编辑,效果好是好,但为了确保从各个角度看都一致,就得反复调整,非常耗时耗力。所以,这种方法很难用在大规模的自动驾驶仿真上。

要想对3D场景进行编辑,首先得把它精准地重建出来,这对于自动驾驶的测试至关重要。但重建场景本身就是一个大难题:车上装的传感器数量有限,车还在高速运动,采集到的数据既稀疏又不完整。再加上车周摄像头都是朝外安装,视野重叠区域小,光线条件也不统一,导致把不同角度、不同时间的画面拼成一个完整的3D场景格外困难。这种360度、大范围、动态变化的场景,想要建得准确、逼真,真的非常具有挑战性。

在本文中,作者提出 DrivingGaussian++(CVPR 2024 的工作 DrivingGaussian 的续作),核心思想是 利用来自多个传感器的序列数据对复杂的驾驶场景进行分层建模。作者采用复合 GS(Composite Gaussian Splatting)将场景分解为静态背景和动态目标,并分别重建每个部分。在此基础上,通过 GS 进行全局渲染捕捉真实世界中的遮挡,包括静态背景和动态目标。此外,作者将 LiDAR 先验融入高斯表示中,从而能够恢复更精确的几何结构并保持更好的多视图一致性。

  • 论文题目: DrivingGaussian++: Towards Realistic Reconstruction and Editable Simulation for Surrounding Dynamic Driving Scenes
  • 论文链接:https://arxiv.org/pdf/2508.20965

与CVPR 2024上发表的初步结果的差异。 作者在几个方面扩展了之前的工作:

  • 基于复合 GS 表示大规模动态驾驶场景,引入了两个新颖模块,包括增量静态3D高斯(Incremental Static 3D Gaussians)和复合动态高斯图(Composite Dynamic Gaussian Graphs)。前者增量地重建静态背景,而后者使用高斯图对多个动态目标进行建模。
  • 构建了一个场景编辑框架,以无需训练的方式编辑重建的场景,涵盖多个任务,包括纹理修改、天气仿真和目标操纵。它有助于生成新颖且真实的仿真数据。
  • 实现了驾驶场景的动态编辑,预测插入场景中的粒子的运动轨迹。
  • 通过3D生成和重建构建了一个前景资源库,并验证了数据的质量。

相关工作

3D 重建

神经辐射场

神经辐射场 (NeRFs) 利用多层感知机 (MLPs) 和可微分体渲染,可以从一组 2D 图像和相应的相机位姿信息中重建 3D 场景并合成新视图。

用于有界场景的 NeRF。 典型的 NeRF 模型最初仅适用于有界场景,且对相机与物体的相对位置有较高要求,也难以处理重叠少或向外捕捉的场景。尽管后续研究在训练速度、位姿优化、场景编辑和动态表达等方面改进了 NeRF,但其在处理自动驾驶等大规模无界场景时仍面临显著挑战。

用于无界场景的 NeRF。 针对无界场景,一些方法对 NeRF 进行了扩展,例如引入多尺度城市静态场景建模、采用抗混叠的 MIP-NeRF 结构、融合多分辨率地面特征,或通过解耦方式处理街道视图。但这些方法大多仍基于静态假设,难以有效表达动态元素。

此外,尽管已有工作尝试将 NeRF 用于动态单目视频合成,或通过场景图、实例感知仿真器和多传感器融合(如 LiDAR 和光流)处理动态城市环境,这些方法往往受限于前向视角或难以应对多摄像头、光照变化和动态目标的复杂交互。传统基于 NeRF 的方法严重依赖光线采样,在动态多目标和光照变化显著时渲染质量下降,同时 LiDAR 仅作为辅助深度监督,其几何先验能力未得到充分发挥。

为克服这些局限,本研究采用复合 GS 对无界动态场景进行建模:静态背景随自车移动增量重建,动态目标通过高斯图建模并集成到场景中。LiDAR 不仅用于深度监督,更为高斯初始化提供几何先验,从而提升重建精度与场景一致性。

3DGS

近期的 3D  GS 方法使用大量 3D 高斯来表示静态场景,并在新视图合成和训练速度方面取得了最先进的结果。与现有的显式场景表示(例如,网格、体素)相比,3DGS 可以用更少的参数对复杂形状进行建模。与隐式神经渲染不同,3DGS 允许基于泼溅的光栅化进行快速渲染和可微分计算。

动态 3DGS 虽然原始的 3DGS 旨在表示静态场景,但已经开发了几种用于动态目标/场景的方法。给定一组动态单目图像,有些工作引入了一个变形网络来建模高斯的运动。此外还有些通过 HexPlane 连接相邻的高斯,实现实时渲染。然而,这两种方法都是明确为专注于中心物体的单目单摄像头场景设计的。另外一些工作使用一组演化的动态高斯来参数化整个场景。然而,它需要具有密集多视图图像的摄像头阵列作为输入。

在真实世界的自动驾驶场景中,数据采集平台的高速运动导致广泛而复杂的背景变化,并且通常由稀疏视图(例如,2-4 个视图)捕获。此外,具有剧烈空间变化和遮挡的快速移动动态目标使情况进一步复杂化。总的来说,这些因素对现有方法构成了重大挑战。

3D 场景可控编辑

神经辐射场 (NeRF) 和 3D  GS 是两种用于 3D 场景重建的重要方法。NeRF 将场景几何和外观隐式编码在多層感知機 (MLP) 中,而 3D  GS 使用 3D 高斯椭球显式表示场景。尽管已经展示了重建能力,但编辑这些表示仍然是一个重大挑战。当前的方法大致可分为两类:基于扩散模型引导的编辑和基于 3D 粒子系统的编辑。

基于扩散引导的编辑

扩散模型因支持文本驱动的图像编辑而受到关注。一些方法借助预训练的扩散模型,将这一能力引入3D场景编辑。具体做法是:对3D模型渲染出的图像添加噪声,再通过2D扩散模型结合控制条件预测噪声差异,并借助分数蒸馏采样(SDS)损失优化3D模型。尽管这类方法效果显著,但它们难以保持多视角一致性,也无法很好地处理复杂的大规模动态场景。

例如,Instruct-NeRF2NeRF 将3D编辑任务转化为2D图像编辑问题,但由于无法保证不同视角下编辑的一致性,容易出现不稳定、速度慢和明显伪影的问题。ViCA-NeRF 尝试通过选择部分参考图像编辑再融合其余图像以缓解问题,但仍未根本解决一致性问题,编辑结果往往模糊。

近期一些工作,如 DreamEditor 将 NeRF 转换为网格并借助 SDS 和 DreamBooth 进行优化;HiFA 通过调整扩散时间步和降噪权重提升多视角一致性;还有一些方法将 NeRF 编辑技术扩展至 3DGS,并引入深度估计作为几何先验。尽管这些方法在一致性方面取得进展,但仍因依赖固定深度估计而仅限于纹理修改,且通常需依赖静态掩码控制编辑区域,无法有效用于动态3D模型训练。现有方法多数仅在物体中心数据集上验证,尚未适用于复杂驾驶场景。

相比之下,DrivingGaussian++ 采用了一种无需训练的范式,有效解决了现有方法在动态驾驶场景编辑中的挑战,实现了卓越的编辑一致性和视觉质量。

基于 3D 粒子系统的编辑

另一类方法不依赖扩散模型或额外图像,而是直接操纵3D粒子实现编辑。例如,ClimateNeRF 通过仿真粒子生成雨、雪、雾等天气效果,并将其嵌入神经场中以增强真实感。GaussianEditor 和 Infusion 等则基于 3DGS,通过语义属性识别编辑区域,或借助深度补全控制高斯修复,实现精确的3D插入与删除。这类方法通常编辑效率更高,多视角一致性也更好。DrivingGaussian++ 采用 3D 粒子级编辑,并将其进一步扩展到多个任务,包括纹理、目标和天气编辑。通过无需训练的范式,作者的方法为大规模自动驾驶场景实现了显式、可控和高效的编辑。

方法论

作者的目标是在 3D 自动驾驶场景中实现无需训练的编辑。为了处理多个编辑任务,作者提出了一个可控且高效的框架。首先,作者采用复合 GS (Composite Gaussian Splatting) 精确重建动态驾驶场景。接下来,作者识别场景中待修改的特定高斯,或生成新的高斯以仿真特定的物理实体。这些目标高斯随后被集成到原始场景中,并预测目标的未来轨迹。最后,作者使用图像处理技术细化结果以增强真实感。使用此框架,作者为三个关键任务开发了详细的编辑方法:纹理修改、天气仿真和目标操纵。方法如图 3 所述。

复合 GS

3DGS 在静态场景中表现良好,但在涉及大规模静态背景和多个动态目标的混合场景中具有显著局限性。如图 4 所示,作者的目标是使用复合 GS 来表示环视的大规模驾驶场景,用于无界的静态背景和动态目标。

带有环视视图的 LiDAR 先验

增量静态 3D 高斯

驾驶场景的静态背景由于其大规模、长持续时间以及由自车移动和多摄像头变换引起的变化,对场景建模和编辑构成了挑战。随着车辆的移动,静态背景经常经历时间偏移和动态变化。由于透视原理,过早地合并远离当前时间步的遥远街道场景会导致尺度混淆,从而产生令人不快的伪影和模糊。为了解决这个问题,作者通过引入增量静态 3D 高斯来改进 3DGS,利用车辆运动引入的透视变化和相邻帧之间的时间关系,如图 5 所示。

复合动态高斯图

通过 GS 进行全局渲染

动态驾驶场景的可控编辑

作者处理自动驾驶仿真的三个关键编辑任务:纹理修改、天气仿真和目标操纵。为了支持这些不同的编辑任务,作者开发了一个框架,该框架使用 3D 几何先验、用于动态预测的大语言模型 (LLMs) 和先进的编辑技术,依次对重建场景的高斯进行操作,以确保整体的连贯性和真实感。

纹理修改: 此任务涉及将图案应用到 3D 目标的表面。在自动驾驶中,纹理修改超越了美学范畴,允许添加关键的道路特征,例如裂缝、井盖和标志,这对于构建更鲁棒的测试环境至关重要。作者在图 7 中展示了物体检测模型的失败案例,突出了编辑仿真重要性。在编辑之前,感知模型准确识别场景内的目标。然而,在使用 DrivingGaussian++ 编辑之后,3D 场景中的具有挑战性的案例对模型变得不可检测,为评估自动驾驶系统内各种组件的可靠性和鲁棒性提供了更有效的测试环境。

天气仿真: 此任务侧重于将动态气象现象(如降雨、降雪和雾)集成到自动驾驶场景中。天气仿真对于复现恶劣天气下的驾驶条件至关重要,展示了其在增强训练数据集方面的重要性。

目标操纵: 此任务分为在重建场景内删除目标和插入目标。目标插入进一步分为静态和动态类型,动态插入自适应地预测目标的运动轨迹。这些操纵对于构建鲁棒的自动驾驶仿真系统至关重要。

为了实现多任务编辑,作者提出了一个框架,该框架无需额外训练即可对重建场景的高斯依次进行操作。该过程首先使用 3D 几何先验识别要编辑的目标高斯,然后将它们集成到场景中。作者采用大语言模型 (LLMs) 来预测动态目标的轨迹,并应用图像处理技术来细化结果,确保连贯性和真实感。编辑流程如图 6 所示。

初始化

在提出的编辑框架中,作者将那些引入到原始场景中或从原始场景中移除的高斯称为目标高斯 (target Gaussians),而从初始场景重建的高斯称为原始高斯 (original Gaussians)。确定目标高斯的方法取决于具体的编辑任务。对于目标移除,目标高斯对应于标记为要移除的原始高斯的子集,通过细化数据集提供的 3D 边界框来识别。由于 LiDAR 先验在重建过程中已被集成,作者可以准确定位它们的位置,而无需额外的坐标系对齐。对于其他编辑任务,会生成新的高斯作为目标高斯,并设计具有特定形状和分布以满足每个任务的要求。

纹理修改。 作者通过在指定编辑区域的表面上引入新的扁平高斯来增强目标的表面纹理。该过程首先选择一个视角,并使用扩散模型或类似工具编辑原始图像,生成目标图像和相应的掩码来指导 3D 编辑。具体来说,作者随机选择一个能清晰看到目标区域的视角,并渲染待编辑的图像及其相关的深度图。接下来,作者定义目标区域的 2D 掩码,并应用扩散模型或图像处理软件在 2D 空间中修改图像,生成目标图像。

使用目标图像和掩码,作者通过逆投影生成目标高斯并分配合适的属性。如图 8 所示,DrivingGaussian++ 根据渲染的深度图和像素级对应关系,将编辑内容投影到相应位置。

带有轨迹预测的高斯组合

使用可微分渲染进行全局细化

实验及结论

重建结果与比较

nuScenes 环视视图的比较

作者将提出的模型与最先进的方法进行比较,包括基于 NeRF 的方法和基于 3DGS 的方案。如表 I 所示,作者的方法优于使用基于哈希的 NeRF 进行新视图合成的 Instant-NGP。虽然 Mip-NeRF 和 Mip-NeRF360 是专门为无界室外场景设计的,但作者的方法在所有指标上都表现良好。

作者在具有挑战性的 nuScenes 驾驶场景上展示了定性评估结果。对于多摄像头环绕视图合成,如图 9 所示,作者的方法能够生成逼真的渲染图像,并确保多摄像头之间的视图一致性。同时,EmerNeRF 和 3DGS 在具有挑战性的区域表现不佳,表现出不理想的视觉伪影,例如重影、动态物体消失、植物纹理细节丢失、车道标记丢失以及远处场景模糊。

作者接下来展示了动态时序场景的重建结果。作者的方法准确地建模了大场景中的动态目标,缓解了这些动态元素的丢失、重影或模糊等问题。所提出的模型随着时间的推移一致地构建动态目标,尽管它们的移动速度相对较高。如图 9 所示,其他方法对于快速移动的动态目标是不够的。

KITTI-360 单目视图的比较

为了进一步验证作者的方法在单目驾驶场景设置中的有效性,作者使用 KITTI-360 数据集进行了实验,并与现有的最先进方法进行比较。如表 III 所示,作者的方法在单目驾驶场景中相对于其他模型表现良好。

编辑结果与比较

作者首先在 nuScenes 数据集上展示了多个任务的编辑结果。与最先进的 2D 和 3D 编辑方法相比,作者的方法实现了卓越的视觉真实感和更好的定量一致性。

为了支持对驾驶场景的灵活编辑,作者还创建了一个包含专用驾驶场景目标的 3D 高斯前景库。这个前景库对于自动驾驶仿真和模型验证至关重要。

定性结果与比较

作者通过 DrivingGaussian++ 对重建的 nuScenes 数据执行无需训练的编辑,涉及三个领域:纹理、天气和目标操纵。综合结果如图 12 所示,展示了 DrivingGaussian++ 在动态驾驶场景中执行各种编辑操作的能力。

对于天气编辑,作者通过基于粒子的仿真实现了真实的效果。特别是对于雪仿真,作者在每个时间步添加雪粒子高斯,并估计表面法线以确定沉积位置。这产生了真实的积雪,如图 13 所示。

对于目标操纵,作者通过使变形模块适应前景上下文,作者实现了灵活多样的动态目标集成。此外,作者采用基于 LLM 的轨迹预测来获取插入目标的轨迹。动态目标插入的结果如图 15 所示。

图 14 提供了与现有 3D 编辑方法的性能比较。虽然 InstructNeRF2Nerf 和 InstructGS2GS 使用扩散模型跨多个任务进行迭代式 3D 场景编辑,但它们在保持照片真实感和视图一致性方面存在局限性。ClimateNeRF 通过表面法线计算专门从事粒子级天气编辑,但其应用缺乏对其他编辑任务的通用性,并且仍局限于静态环境。作者的方法解决了这些局限性,同时在所有编辑任务上实现了高质量的结果。

定量结果与比较

为了评估作者编辑方法的一致性和真实性,作者将 DrivingGaussian++ 与最先进的 3D 和 2D 编辑技术进行了比较。

对于 3D 场景编辑,作者在任务多样性、处理时间和 CLIP-direction 相似性方面与 ClimateNeRF、IN2N 和 IGS2GS 进行比较。如表 II 所示,DrivingGaussian++ 在多样性、效率和文本对齐一致性方面均优于所有其他方法。特别是,对于来自 NuScenes 数据集的场景,DrivingGaussian++ 的编辑时间通常在 3~10 分钟内,显著低于其他需要长时间训练的 3D 编辑模型。

为了评估 DrivingGaussian++ 在单视图编辑上的性能,作者还在不同任务上将其与 2D 编辑方法进行了比较,如表 IV 所示。

对于纹理修改和目标插入,作者与一些修复方法进行比较。虽然 Any-Door 和 Paint-by-Example 利用 2D 图像进行条件编辑,但它们产生不一致的透视关系并且与条件图像的一致性差。SD-Inpainting 以文本提示和 2D 掩码作为输入,但性能和可控性有限。对于天气仿真,作者评估了文本引导的编辑方法。尽管 FreePromptEditing、InstructPix2Pix 和 InstructDiffusion 表现出良好的文本理解能力,但它们的结果往往缺乏物理合理性——例如,雪仅仅被渲染为风格变化而不是累积的降水。InstructDiffusion 在这些天气场景中的编辑结果不太真实。对于目标移除,作者评估了修复和文本引导方法。SD-Inpainting 和 InstructDiffusion 会留下残留伪影,而 LaMa 在场景恢复中会引入明显的不一致性。

作者使用 CLIP direction similarity 指标评估纹理、天气编辑和目标插入的编辑一致性。对于目标移除,作者使用 LPIPS 和 FID(如 SPIn-NeRF 所示)评估质量。DrivingGaussian++ 在所有任务上均实现了卓越的性能。

用于驾驶场景的 3D 高斯前景库

作者构建了一个全面的 3D 高斯前景库,包含各种交通元素:车辆、自行车、摩托车、行人、动物以及标志和交通锥等静态物体。图 16 显示了作者的前景库和插入结果。

在线模型重建。 作者从在线来源和 Chatsim 收集 3D 模型(行人、车辆等),然后使用 3DGS 重建它们。对于每个模型,作者在 Blender 中渲染 360 度视图,并使用 COLMAP 执行 3DGS 重建。作者使用从 nuScenes 提取的环境贴图调整照明。

nuScenes 车辆的稀疏重建。 作者使用 SplatterImage 高效地稀疏重建 nuScenes 中的车辆。每辆车大约需要 2~4 张参考图像进行高斯重建。

基于图像的目标生成。 为了扩展作者的数据集,作者使用图像输入生成 3D 目标。作者首先使用 SAM 提取干净的目标图像。随后,作者使用 DreamGaussian 和 DreamGaussian4D 创建静态和动态 3D 模型,用于少样本 3D 生成,从而能够高效地创建高保真度的静态和动态目标。

消融研究

高斯的初始化先验

作者进行了对比实验来分析不同先验和初始化方法对高斯模型的影响。原始 3DGS 提供两种初始化模式:随机生成的点和使用 COLMAP 计算的 SfM 点。作者另外提供了两种其他方法:来自预训练 NeRF 模型的点云和使用 LiDAR 先验生成的点。

同时,为了分析点云数量的影响,作者将 LiDAR 下采样到 600K 并应用自适应滤波(1M)来控制生成的 LiDAR 点的数量。作者还为随机生成的点设置了不同的最大阈值(600K 和 1M)。这里,SfM-600K±20K 表示由 COLMAP 计算的点数,NeRF-1M±20K 表示预训练 NeRF 模型生成的总点数,LiDAR-2M±20k 指的是 LiDAR 点的原始数量。

如表 V 所示,随机生成的点导致最差的结果,因为它们缺乏任何几何先验。使用 SfM 点初始化也无法充分恢复场景的精确几何结构,因为点稀疏且存在无法容忍的结构错误。利用从预训练 NeRF 模型生成的点云提供了相对准确的几何先验,但仍然存在明显的异常值。对于使用 LiDAR 先验初始化的模型,尽管下采样会导致某些局部区域的几何信息丢失,但它仍然保留了相对准确的结构先验,因此超过了 SfM(图 18)。作者注意到,实验结果并不随 LiDAR 点数量的增加而线性变化。这可以归因于过于密集的点存储了冗余特征,干扰了高斯模型的优化。

模型组件的有效性

作者分析了所提出模型每个模块的贡献。如表 VI 和图 17 所示,复合动态高斯图 (Composite Dynamic Gaussian Graph) 模块在重建动态驾驶场景中起着至关重要的作用,而增量静态 3D 高斯 (Incremental Static 3D Gaussians) 模块能够实现高质量的大规模背景重建。

结论

作者介绍了 DrivingGaussian++,一个用于重建和编辑大规模动态自动驾驶场景的框架。作者的方法使用增量静态 3D 高斯逐步建模静态背景,并通过复合动态高斯图捕捉多个移动目标。通过利用 LiDAR 先验,作者实现了精确的几何结构和鲁棒的多视图一致性,显著提高了场景重建的质量。DrivingGaussian++ 促进了无需训练的编辑,用于纹理修改、天气仿真和目标操纵等任务,从而能够生成真实且多样化的驾驶场景。在 nuScenes 和 KITTI-360 等数据集上的实验结果表明,作者的框架在重建和编辑任务上均实现了最先进的性能,能够实现高质量的环视视图合成和动态场景编辑。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论