原文链接:https://mp.weixin.qq.com/s/rWSjsi0bQy6eHCYb2RC_qw
近年来,视频生成在自动驾驶领域的城市场景合成中展现出优越性。现有的自动驾驶视频生成方法主要集中在RGB视频生成上,缺乏支持多模态视频生成的能力。然而多模态数据(如深度图和语义图)对于自动驾驶中的整体城市场景理解至关重要。虽然可以使用多个模型来生成不同的模态,但这会增加模型部署的难度,并且无法利用多模态数据生成的互补线索。为了解决这个问题,本文提出了一种全新的面向自动驾驶的多模态环视视频生成方法。具体而言,我们构建了一个由模态共享组件和模态特定组件组成的统一扩散Transformer模型。然后利用多样化的条件输入,将可控的场景结构和内容线索编码到统一的扩散模型中,以实现多模态多视角视频生成。通过这种方式,我们的方法能够在统一的框架内生成多模态多视角的驾驶场景视频。在nuScenes上的实验表明,MoVieDrive能够生成高保真度且可控性强的多模态多视角城市场景视频,性能超越了现有最先进方法。
- 论文标题:MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation
- 论文链接:https://arxiv.org/abs/2508.14327
简介
用于自动驾驶的城市场景视频生成近年来发展迅速。它可以用来生成可控的驾驶场景,特别是合成在现实世界中难以收集的长尾场景。这有助于提升自动驾驶的性能并进行可靠性评估。
当代的视频生成方法,如SVD和CogVideoX,在生成高质量视频方面已展现出令人瞩目的性能。然而,它们不能直接用于自动驾驶,因为多视角驾驶场景生成需要多视角时空一致性和高可控性。
为了解决这个问题,一些近期的研究探索了扩散模型用于可控的多视角城市场景生成,并取得了令人鼓舞的性能。然而,这些方法大多专注于单模态的RGB视频生成,缺乏支持多模态视频生成的能力。作为一个以感知为核心的任务,自动驾驶对多模态数据(如深度图和语义图)有着固有的需求,这些数据有助于实现更安全、更高效的自动驾驶,促进对城市场景的整体理解。
解决此问题的一种常见方法是使用多个模型来生成不同的模态,但这通常会增加模型部署的难度,并且无法充分利用多模态数据生成的互补线索。

在本研究中,我们提出了一种新颖的、面向自动驾驶的多模态多视角视频扩散方法,称之为MoVieDrive。如图1所示,与使用多个模型生成不同模态的以往方法不同,我们的方法提出使用一个统一的模型来联合生成多模态多视角的驾驶场景。图2展示了我们方法的概览。具体而言,我们采用多样化的条件输入,包括文本条件、参考条件和布局条件,以指导可控的场景生成。其中,文本条件指导整体场景生成,参考条件是可选的,仅用于未来场景预测,而布局条件则捕捉细粒度的场景线索。接下来,我们将多模态多视角场景生成分解为模态共享学习和模态特定学习,并设计了一个包含模态共享层和模态特定层的统一扩散Transformer模型。这个统一的模型减轻了对多个模型的需求,并提高了模型的可扩展性。然后,我们将各种条件编码到统一的扩散模型中,以进行多模态多视角场景生成。这有助于利用多模态数据的互补线索,实现更丰富的场景理解,从而在统一的框架内促进多模态多视角城市场景的生成。为了评估我们方法的性能,我们在nuScenes数据集上进行了广泛的实验,这是一个具有挑战性的现实世界自动驾驶数据集。实验结果表明,与现有最先进方法相比,我们的方法在视频生成质量和可控性方面均取得了令人信服的成果,同时支持多模态数据生成。
总结来说,本文的主要贡献如下:
- 提出了首个利用多样化条件输入和扩散Transformer模型进行多模态多视角自动驾驶场景生成的工作。这解决了现有工作的局限性,并促进了自动驾驶中的城市场景理解。
- 设计了一个由模态共享组件和模态特定组件组成的统一多模态多视角扩散Transformer模型。这使得在单一模型内实现多模态多视角城市场景生成成为可能。
相关工作回顾
**视频生成 (Video Generation)**。作为计算机视觉领域一个长期的研究课题,视频生成已得到充分发展,并探索了多种类型的方法,例如扩散模型、变分自编码器(VAEs)、生成对抗网络、自回归模型等。其中,基于扩散的方法由于在可控性和保真度方面的优越性,近年来已成为主流。然而,这些方法不能直接应用于自动驾驶的城市场景生成,因为后者需要多视角时空一致性和高可控性。为了将它们适应于复杂的可控驾驶场景生成,需要进行大量修改。我们的方法继承了基于扩散的视频生成的优点,并为自动驾驶设计了一种新的多模态多视角扩散Transformer模型。
**城市场景合成 (Urban Scene Synthesis)**。城市场景和资产生成的快速发展极大地促进了自动驾驶中的数据合成和闭环评估。在自动驾驶的城市场景合成中,主要有两个研究方向。一条研究路线探索了渲染方法,例如神经辐射场(NeRF)和3DGS(3D Gaussian Splatting),用于城市场景合成。尽管这类方法能实现高保真度的场景合成,但其可控性和多样性较差。另一条研究路线则探索了视频生成方法,例如扩散模型,用于城市场景生成。其中,一些研究专注于单视角生成,而其他研究则探讨了多视角生成。我们的工作聚焦于更具挑战性的环视场景。扩散模型被广泛用作当代多视角城市场景生成的backbone网络,例如DriveDreamer、Panacea、MagicDrive、MagicDrive-V2、Drive-WM、MaskGWM等。尽管这些方法已展现出有希望的结果,但它们仅关注单模态的RGB视频生成,缺乏为整体场景理解生成多模态数据的能力。此外,UniScene提出使用多个模型来生成RGB视频和LiDAR点云,但仍未能构建一个统一的模型来实现多视角多模态驾驶场景生成。与现有工作不同,我们的方法提出在统一框架内生成多模态多视角的驾驶场景视频,填补了现有方法留下的空白。
**多模态合成 (Multi-Modal Synthesis)**。近年来已提出一些基于扩散的多模态合成方法。然而,这些方法均未针对城市场景生成而设计,且将它们修改以适应复杂的可控多模态多视角场景生成并非易事。我们的方法与这些工作不同,我们提出了一种新颖的框架,该框架利用多样化的条件输入,将可控的场景结构和内容线索编码到一个扩散Transformer模型中,以实现多模态多视角的驾驶场景生成。
MoVieDrive算法详解
概述



条件输入编码


多模态多视角扩散Transformer


模型训练与推理

实验结果分析
数据集与实验设置
**数据集 (Dataset)**。遵循先前的工作,我们在nuScenes数据集上进行实验。nuScenes数据集是一个真实世界的自动驾驶基准数据集,包含700个训练视频和150个验证视频。我们使用官方的训练集和验证集进行实验。
评估指标 (Evaluation Metrics)。为了评估视频保真度,我们使用常用的FVD作为指标。为了评估可控性,使用预训练的BEVFormer来评估基于视频的3D目标检测性能(以mAP衡量)和基于视频的鸟瞰图(BEV)分割性能(以mIoU衡量)。为了评估生成深度图的质量,我们还使用了绝对相对误差 AbsRel。此外,为了评估生成语义图的质量,我们报告了交通相关类别、建筑物、树木和天空的mIoU。
实现细节。我们在CogVideoX(v1.1-2B)和SyntheOcc的基础上构建我们的模型。我们采用预训练的T5文本编码器,并使用预训练权重初始化3D VAE和时间层。在训练过程中,3D VAE和T5文本编码器被冻结,而其他模型组件则联合训练。我们的模型使用AdamW优化器进行训练,学习率为2e-4。默认情况下,我们使用6个相机和49个视频帧,每个帧的分辨率为512×256。
与SOTA对比
视频保真度结果分析。视频保真度衡量生成的城市场景视频的真实感和时间连贯性。我们在表1中报告了FVD结果,并显示我们的方法相比最先进方法取得了更好的结果。具体而言,我们的方法达到了46.8的FVD,优于最先进的DriveDreamer、DriveDreamer-2、UniScene、MaskGWM、MagicDrive等方法。此外,与CogVideoX+SyntheOcc相比,我们的方法性能提升了约22%。图4展示了一些与最先进方法的定性比较。从图4中可以看出,我们的方法能够生成具有高保真度细节(例如车辆和道路结构)的城市场景视频。


场景可控性结果分析。场景可控性指条件输入与生成视频之间的一致性。我们在表1中报告了3D目标检测的mAP和BEV分割的mIoU。我们可以看到,我们的方法在3D目标检测上达到了22.7的最佳mAP,在BEV分割上达到了35.8的最佳mIoU,优于最先进方法。这表明我们的方法能够生成与控制条件更一致的城市场景视频。
深度图质量结果分析。在表1中,我们报告了FVD和AbsRel结果以评估生成深度图视频的质量。与由Depth-Anything-V2生成的深度图(如CogVideoX+SyntheOcc+Depth-Anything-V2)相比,我们的方法在深度图上取得了更好的FVD(25.3)和AbsRel(0.110)。这表明,我们统一框架中的多模态生成能够产生高质量的深度图,即使没有使用额外的模型进行多模态生成。
语义图质量结果分析。在表1中,我们报告了FVD和mIoU结果以评估生成语义图视频的质量。我们可以看到,与最先进方法相比,我们的方法取得了更好的结果,尤其是在FVD方面,显著优于对比方法。这进一步验证了我们多模态生成方法的有效性。
消融实验
多模态生成的有效性。在表2中,我们分析了我们多模态生成机制的有效性。我们比较了ours(RGB)+Depth-Anything-V2+Mask2Former、ours(RGB+depth)+Mask2Former和ours(RGB+depth+semantic)的性能。从表2可以看出,我们统一的方法(RGB+depth+semantic)取得了优越的整体性能。具体而言,我们的方法在深度图的AbsRel和语义图的mIoU上均达到最佳,且RGB的FVD也具有可比性。这验证了在统一框架内生成多种模态不仅减少了模型数量,而且实现了更好的整体性能。我们在图5中可视化了一些多模态生成结果。这些结果进一步展示了我们方法生成的多模态数据的跨模态一致性。


扩散Transformer组件的有效性。在表3中,我们研究了所提出的扩散Transformer模型的有效性。我们可以看到,仅使用时间层块(“L1”)会导致性能较差,而使用时间层块加上模态特定层块(“L1+L3”)则带来了更好的性能。当使用所有组件(“L1+L2+L3”)时,我们的模型取得了最佳性能。此外,图6显示,我们的方法能够保持跨视角一致性,而没有使用多视角时空块的方法则表现出较差的跨视角一致性。


统一布局条件编码器的有效性。在表4中,我们分析了我们统一布局条件编码器的有效性。我们可以看到,与使用预训练的3D VAE编码器相比,使用我们提出的统一布局条件编码器带来了更好的性能。这可以归因于所提出的模块能够实现隐式的条件嵌入空间对齐,从而有效地融合条件以进行可控的场景生成。
结论
本工作提出了一种新颖的、面向自动驾驶的多模态多视角城场景视频生成方法。其核心思想是设计一种新的多模态多视角扩散Transformer模型,并利用多样化的条件输入,在统一的框架内编码可控的场景结构和内容线索。在nuScenes数据集上的大量实验表明,所提出的方法在性能上优于最先进方法。
局限性与未来工作。尽管我们的方法在多模态多视角生成方面取得了优越的性能,但仍存在局限性。例如,如何有效地将所提出的方法与闭环自动驾驶仿真器相结合,值得进一步研究。这有望帮助全面评估自动驾驶系统的安全性和可靠性。此外,如何从生成的多模态数据中推导出LiDAR点云,是一个有趣的研究方向,可以进一步增强我们的方法。我们的未来工作旨在探索解决这些问题的方案,以促进该方法在现实世界应用中的部署。

发表回复