2024-05-28 MagicDrive3D：任意视角的高质量3D驾驶场景渲染！港中文&诺亚最新

虽然用于图像和视频的可控生成模型已经取得了显著的成功，但针对3D场景的高质量模型，特别是在像自动驾驶这样的无界场景中，仍然发展不足，这主要是因为数据获取成本高昂。MagicDrive3D是一种用于可控3D街道场景生成的新颖流程，支持多条件控制，包括BEV（鸟瞰图）地图、3D目标和文本描述。与之前在训练生成模型之前进行重建的方法不同，MagicDrive3D首先训练一个视频生成模型，然后从生成的数据中进行重建。这种创新的方法使得生成过程易于控制，并可以获取静态场景，从而实现了高质量的场景重建。为了解决生成内容中的微小错误，MagicDrive3D提出了可变形的高斯映射（deformable Gaussian splatting），结合单目深度初始化和外观建模，以管理不同视角下的曝光差异。在nuScenes数据集上验证后，MagicDrive3D生成了多样且高质量的3D驾驶场景，支持任意视角的渲染，并提升了如BEV分割等下游任务的性能。我们的结果展示了该框架的卓越性能，凸显了其在自动驾驶模拟及更广泛领域中的变革潜力。

领域背景介绍

随着生成模型的进步，特别是扩散模型的发展，生成3D资产的兴趣逐渐增加。虽然大量工作集中在以物体为中心的生成上，但生成开放式的3D场景仍然相对未被探索。这一差距尤为重要，因为许多下游应用，如虚拟现实（VR）和自动驾驶模拟，需要可控的3D街道场景生成，这是一个待解决的挑战。

3D感知的视图合成方法大致可以分为两种途径：无几何信息的视图合成和注重几何的场景生成。无几何信息的方法直接基于相机参数生成2D图像或视频，在照片级真实图像生成方面表现出色。然而，它们通常缺乏足够的几何一致性，限制了它们扩展到数据集之外视角的能力。另一方面，注重几何的方法（例如，GAUDI和NF-LDM）从潜在输入生成3D表示（例如，NeRF或体素网格），支持多视角渲染。尽管这些方法具有更广泛的适用性，但它们需要昂贵的数据收集，要求静态场景和一致的传感器属性，如曝光和白平衡。街景数据集，如nuScenes，通常无法满足这些要求，这使得使用这些数据集训练注重几何的3D街道场景生成模型变得极其困难。

认识到无几何信息的视图合成方法在可控生成方面的进步，它们有潜力作为数据引擎使用。它们的可控性和照片级真实感可以解决注重几何的方法所面临的挑战。然而，无几何信息方法合成的视图中的有限3D一致性，如帧之间的时间不一致性和物体的变形，对于将这两种方法集成到一个统一框架中构成了关键问题。

为了应对这些挑战，我们提出了MagicDrive3D，一个将无几何信息的视图合成和注重几何的重建相结合的新颖框架，用于可控的3D街道场景生成。如图2所示，方法首先训练一个多视角视频生成模型，以合成静态场景的多个视图。该模型使用来自物体框、道路地图、文本提示和相机姿态的控制进行配置。为了增强帧间3D一致性，加入了坐标embedding ，这些embedding 表示LiDAR坐标之间的相对变换，以精确控制帧位置。接下来，从先验知识、建模和损失函数的角度改进了生成视图的重建质量。鉴于不同相机视图之间的有限重叠，采用了单目深度先验，并提出了一种专门用于稀疏视图设置的对齐算法。此外还引入了可变形的Gaussian splatting 和appearance embedding maps ，分别处理局部动态和曝光差异。

通过广泛的实验证明，MagicDrive3D框架在生成与道路地图、3D bounding box和文本描述高度一致的逼真街道场景方面表现出色，如图1所示。展示了生成的相机视图可以增强鸟瞰图（BEV）分割任务的训练，为场景生成提供了全面的控制，并使得为自动驾驶模拟创建新颖的街道场景成为可能。值得注意的是，MagicDrive3D是首个仅使用具有六个相机视角的训练数据集实现可控3D街道场景生成的框架。

主要贡献如下：

• 提出了MagicDrive3D，这是首个有效结合无几何信息和注重几何的视图合成方法，用于可控的3D街道场景生成。MagicDrive3D根据各种控制信号生成逼真的3D街道场景，支持从任何相机视角进行渲染。

• 引入了一种相对姿态embedding 技术，以生成具有改进3D一致性的视频。此外，还通过定制技术（包括可变形的高斯splatting）增强了重建质量，以处理生成视频中的局部动态和曝光差异。

• 通过广泛的实验，证明了MagicDrive3D能够生成具有多维可控性的高质量街道场景。结果还表明，合成数据改善了3D感知任务，凸显了方法的实际益处。

相关的其它工作介绍

3D场景生成。许多具有3D意识的生成模型可以合成具有明确相机姿态控制和潜在其他场景属性的图像，但只有少数模型可以扩展为开放的3D场景生成。GSN和GAUDI作为生成室内场景的代表性模型，使用带有潜码输入的NeRF作为“平面图”或三平面特征。然而，它们依赖包含不同相机姿态的数据集，这与典型的驾驶数据集（其中相机配置保持不变）不兼容。NF-LDM开发了一个用于场景特征体素网格生成的分层潜在扩散模型。但是，它们的表示和复杂的建模阻碍了精细细节的生成。

与以前的工作不同，这些工作通常关注使用显式几何进行场景生成。这通常需要大量不适合典型街景数据集（如nuScenes）的数据，这里提出将无几何信息的视图合成与注重几何的场景表示相结合，用于可控的街道场景创建。在方法上，LucidDreamer与我们的方法最为相似，尽管它依赖于文本控制的图像生成模型，但这不能算作一个视图合成模型。相比之下，我们的视频生成模型具有3D意识。此外还提出了针对3DGS的几项改进，以提高场景生成的质量。

街景视频生成。扩散模型影响了一系列街景视频生成的工作，从单视图到多视图视频。尽管跨视图一致性对于多视图视频生成至关重要，但由于它们的数据中心性质，这些模型在相机姿态上的泛化能力有限。此外，这些模型缺乏对帧变换（即精确的车辆轨迹）的精确控制，这对于场景重建至关重要。本工作通过增强视频生成中的控制和提出专门的变形Gaussian splatting来确保几何准确性，从而解决了这个问题。

街景场景重建。街景的场景重建和新视图渲染在驾驶模拟、数据生成以及增强和虚拟现实等应用中很有用。对于街景场景，由于场景动态和多相机数据采集中的差异，典型的大规模重建方法变得无效。因此，基于真实数据的重建方法利用激光雷达来获取深度先验，但它们的输出仅允许从同一场景渲染新视图。与这些方法不同，我们的方法在多个级别的条件控制下合成新场景。

MagicDrive3D方法介绍

生成内容的增强Gaussian Splatting

3DGS是一种灵活的显式场景重建表示方法。此外，3DGS的快速训练和渲染速度使其非常适合降低场景创建流程中的生成成本。然而，与其他3D重建方法类似，3DGS需要在像素级别上实现高水平的跨视图3D一致性，这不可避免地会将生成数据中的微小错误放大成明显的伪影。因此从先验、建模和损失的角度提出了对3DGS的改进，使3DGS能够容忍生成的相机视图中的微小错误，从而成为增强渲染中几何一致性的有力工具。

先验：深度一致的先验。深度作为基本的几何信息，在街道场景重建中得到了广泛的应用，许多工作使用来自激光雷达或其他深度传感器的深度值。然而，对于合成的相机视图，深度是不可用的。因此，我们建议使用预训练的单目深度估计器来推断深度信息。

建模：用于局部动态的可变形高斯。尽管我们的视频生成模型提供了3D几何一致性，但在某些对象细节上仍不可避免地存在像素级别的差异，如图4所示。3DGS的严格一致性假设可能会放大这些微小误差，导致浮动伪影。为了减轻这些误差的影响，这里提出了基于3DGS的可变形高斯分割（DGS），它降低了帧间时间一致性的要求，从而确保了生成视点的重建效果。

Loss：Aligning Exposure with Appearance Modeling。典型的街景数据集是通过多个相机收集的，这些相机通过自动曝光和自动白平衡独立捕获视图。由于视频生成是优化以匹配原始数据分布的，因此在生成的数据中也存在来自不同相机的差异。外观差异是野外重建中众所周知的问题，本文为GS表示法提出了一种专用的外观建模技术。

实验对比分析

数据集。使用nuScenes数据集来测试MagicDrive3D，该数据集通常用于生成和重建街景。遵循官方配置，使用大约每个20秒的700个街景视频片段进行训练，另外150个片段用于验证。对于控制信号中的语义信息，使用10个对象类别和8个道路类别。

指标和设置：MagicDrive3D主要通过使用Fréchet Inception Distance（FID）来评估，方法是通过渲染数据集中未见的新视图，并将其FID与真实图像进行比较。此外，该方法的视频生成能力通过Fréchet Video Distance（FVD）进行评估，而其重建性能则通过L1、PSNR、SSIM 和LPIPS 进行评估。对于重建评估，采用了两种测试场景：360°场景，其中来自t=9的所有六个视图都保留用于在规范空间中测试重建；以及vary-t场景，其中从不同的t中随机抽取一个视图，以评估在规范空间中通过t进行的长距离重建能力（如表1所示）。