原文链接:https://mp.weixin.qq.com/s/dVFSJ_cGyspxtFzF07i0Dw
最新的自动驾驶世界模型已经可以实现高质量的可控多模态视频生成。现有方法主要关注与生成质量和可控性相关的指标,却往往忽视了对下游感知任务的评测——而这些任务对自动驾驶性能至关重要。现有方法通常采用“先在合成数据上预训练,再在真实数据上微调”的训练策略,导致训练epoch是基准模型(仅使用真实数据)的两倍。而当我们将基准模型的训练epoch翻倍时,合成数据的优势便会变得微乎其微。
为充分证明合成数据的价值,北京大学、小米汽车和华中科技大学的团队提出了Dream4Drive——一种全新的合成数据生成框架,专为提升下游感知任务性能设计。Dream4Drive首先将输入视频分解为多个3D感知引导图(3D-aware guidance maps),随后将3D资产渲染到这些引导图上;最后,通过微调世界模型,生成经过编辑的多视角真实视频,该视频可用于训练下游感知模型。Dream4Drive能够前所未有地灵活生成大规模多视角极端场景,显著提升自动驾驶中的极端场景感知能力。
为助力未来研究,Dream4Drive还构建了一个大规模3D资产数据集DriveObj3D,涵盖驾驶场景中的典型类别,可支持多样化的3D感知视频编辑。大量实验表明,在不同训练epoch下,Dream4Drive均能有效提升下游感知模型的性能。
- 论文名称:Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
- 论文链接:https://www.arxiv.org/abs/2510.19195
- 项目链接:https://wm-research.github.io/Dream4Drive/

一、背景回顾
3D目标检测和跟踪等感知任务是下游决策规划的重要输入模块。然而感知模型的性能高度依赖大规模人工标注训练数据集。为确保在极少数罕见的安全场景中具备可靠性,获取充足的长尾数据十分重要。尽管自动驾驶领域已开发出完善的4D标注流程以简化数据获取,但收集长尾数据仍需耗费大量时间与人力。
基于扩散模型和ControlNet的自动驾驶世界模型已在业内得到应用,可根据场景布局(BEV map、3D目标框和文本生成)合成数据。但这类模型对单个目标的位姿和外观控制能力有限,导致难以生成多样化的合成数据。与之不同,视频编辑方法(而非生成方法)通过参考图像和3D边界框修改目标的外观与位姿,扩展了自动驾驶世界模型的能力,可生成多样化极端场景;但单视角插入的局限性使其无法应用于环视BEV感知任务。
基于神经辐射场(NeRF)或3D高斯splatting(3DGS)的重建类方法,能够实现对几何结构的精确控制;尽管这类方法能保留几何信息,但稀疏的训练视角往往会导致生成结果出现伪影和渲染不完整的问题,且缺乏光照建模会造成插入目标与背景之间的视觉不一致。
更重要的是,我们认为现有方法的合成数据增强实验存在公平性问题:它们通常采用“先合成数据预训练、再真实数据微调”的策略,导致训练epoch是基准模型(仅用真实数据)的两倍。我们发现,在训练轮次相同的情况下,大规模合成数据集不仅难以体现优势,甚至可能比仅使用真实数据的效果更差。如图1所示,在2× epoch设置下,仅用真实数据训练的模型在平均精度均值(mAP)和nuScenes检测得分(NDS)上,均优于结合真实数据与合成数据训练的模型。鉴于下游感知任务对自动驾驶的重要性,我们认为有必要重新审视“自动驾驶世界模型作为感知任务合成数据生成器”的有效性。
为重新评估合成数据的价值,我们提出了Dream4Drive——一种专为下游感知任务设计的3D感知合成数据生成框架。其核心思路如下:首先将输入视频分解为多个3D感知引导图,随后将3D资产渲染到这些引导图上;最后通过微调驾驶世界模型,生成经过编辑的多视角照片级真实感视频,用于训练下游感知模型。通过这一流程,我们可在同一场景中融入具有不同轨迹(如视角、位姿、距离)的多种资产,显著提升合成数据的多样性。
如图1所示,在相同训练轮次(1×、2×或3×)下,我们的方法仅需420个合成样本(不足真实样本的2%),即可超越现有数据增强方法。据我们所知,本文首次通过公平对比证明:合成数据在性能上可超越仅使用真实数据的训练方式,为感知任务带来切实增益。
具体而言,Dream4Drive基于Diffusion Transformer微调得到多视角视频修复模型。与依赖稀疏空间控制(如BEV、3D边界框)的现有方法不同,Dream4Drive采用密集型3D感知引导图(如深度图(depth)、法向量图(normal)、边缘图(edge)、裁剪图(cutout)、掩码图(mask)),在保留原始视频几何与外观信息的同时,通过将3D资产渲染到引导图中实现编辑。这种设计支持实例级、跨视角一致的视频编辑,同时保证视觉真实感与几何准确性。生成的视频不仅质量优异,还可直接用于训练最先进的感知模型。
为支持多样化的3D感知视频编辑,Dream4Drive设计了一套流程:基于目标场景图像或特定类别资产的视频,自动获取高质量3D资产。流程步骤如下:
- 1)采用图像分割模型定位并裁剪指定类别的目标;
- 2)使用图像生成模型生成目标目标的多视角一致图像;
- 3)将这些图像输入网格生成模型,生成高质量3D资产。
Dream4Drive构建了大规模3D资产数据集DriveObj3D,涵盖驾驶场景中的典型类别,可为未来研究提供支持。本文的主要贡献如下:
- 发现现有数据增强方法的评估存在公平性问题:在训练轮次相同时,“真实数据+合成数据”的混合数据集相比仅使用真实数据并无优势;
- 提出3D-aware合成数据生成框架Dream4Drive,通过密集引导图实现视频编辑,生成兼具外观多样性与几何一致性的合成数据;
- 构建大规模数据集DriveObj3D,涵盖驾驶场景典型类别,支持3D感知视频编辑。
不同训练轮次下的大量实验表明,仅添加极少量的合成数据,即可显著提升感知性能,充分验证了Dream4Drive的有效性。
二、Dream4Drive算法详解
本文的目标是从带有3D box标注的真实视频和目标3D资产中生成高质量合成视频,用于训练感知模型。

预备知识

3D-aware场景编辑


3D-aware视频渲染


三、DriveObj3D资产
为构建用于多样化3D感知视频编辑的大规模3D资产库,本文设计了一套简洁且高效的流程。该流程的核心思路是将资产生成过程分解为三步:(i)2D实例分割;(ii)多视角图像生成;(iii)3D网格生成。如图5所示,该流程以视频或图像以及目标资产类别作为输入,生成用于下游应用的3D网格。




实验结果分析
主要实验结果
下游任务有效性: 本文将Dream4Drive与现有驾驶世界模型在下游任务上的性能进行对比,检测与跟踪结果分别如表1和表2所示。尽管Panacea与SubjectDrive在“2x训练轮次”设置下性能优于纯真实数据基准,但当统一训练轮次后,其相比纯真实数据的性能增益微乎其微。
相比之下,本文方法通过在指定3D位置对目标进行显式编辑,并利用3D感知引导图指导前景-背景合成,生成标注精确的视频,可持续提升下游感知模型性能。值得注意的是,仅使用420个插入样本(不足真实样本的2%),本文方法的性能便超过了使用完整合成数据集的现有方法;更重要的是,本文首次实现了“训练轮次相同时,合成数据辅助训练的性能超越纯真实数据训练”的突破。


**不同分辨率下的有效性:
随着生成模型的发展,合成高分辨率视频已成为可能。为探究高分辨率合成数据对下游感知模型的影响,本文进一步在512×768分辨率下开展检测与跟踪实验,结果分别如表3和表4所示。
在1倍与2倍轮次设置下,真实数据与Dream4Drive的高分辨率(512×768)实验结果均显著优于低分辨率(256×512,见表1、表2)结果。值得注意的是,通过高分辨率合成数据增强,Dream4Drive仅需420个样本即可实现mAP提升4.6个百分点(12.7%)、NDS提升4.1个百分点(8.6%)。性能增益主要来自大型车辆类别(如公交车、工程车辆、卡车),各类别的详细AP值详见附录B。
与现有数据增强范式不同,无论训练轮次多少,Dream4Drive的性能始终优于纯真实数据训练,这充分证明了高质量合成数据的价值。

与朴素插入方法的定量与定性对比:
提取3D资产后,可通过直接投影生成编辑视频。为评估“3D感知视频渲染”与“直接插入”对下游任务的影响,本文开展了全面对比实验,结果如表3和表4所示。尽管“直接插入”的性能优于纯真实数据,但由于缺乏阴影、反射等真实感细节,其性能仍低于本文生成式方法。有趣的是,“直接插入”的mAOE指标最高,这可能是因为插入资产与原始边界框朝向完全对齐所致。
图8展示了不同场景下“朴素插入”与本文生成式方法的视觉效果对比,可见Dream4Drive生成的编辑视频真实感更优。


消融实验
插入位置的影响: Dream4Drive可通过在场景中任意位置投影3D资产实现视频编辑。为系统评估插入位置对下游模型性能的影响,本文将插入位置分为“前方(Front)、后方(Back)、左侧(Left)、右侧(Right)”四类,结果如表5所示。
实验结果表明:
- 在前/后方插入资产的性能相近;
- 左侧插入的性能优于右侧插入,具体表现为mAP提升0.4个百分点、NDS提升0.9个百分点、mAOE降低5.7个百分点。
这一现象可能源于数据集偏差:nuScenes数据集中多数车辆出现在自车左侧,因此增强这类极端场景可提升模型预测性能,而右侧极端场景对验证集性能的增益有限。
本文还在表5中分析了插入距离对性能的影响:近距离插入的性能往往较差,这可能是因为资产遮挡了相机视野,干扰了其他实例的训练;远距离插入的增强效果更优——由于检测器对远距离目标的检测能力通常较弱,增加远距离目标样本可显著提升检测性能。
3D资产来源的影响: 与现有研究(Ljungbergh et al., 2025)一致,本文发现插入资产的来源会影响合成数据质量,因此进一步探究了不同资产来源对下游感知性能的影响。
如表5所示:
- Trellis虽能生成高质量资产,但其风格与自动驾驶场景不完全匹配,插入后易产生伪影并导致质量下降,对下游任务产生负面影响;
- Hunyuan3D的单视角生成性能低于本文多视角方法——单视角生成的资产可能存在完整性问题,而本文方法可生成完整、高质量的3D资产。

实验结论
本文总结了合成数据增强感知模型的核心实验发现:
- 复制原始场景布局生成合成数据无法提升性能;通过插入新3D资产增强场景才是有效的数据增强策略;
- 高分辨率合成数据对数据增强的增益更显著;
- 插入资产的位置会影响增强效果,这揭示了数据集中存在的偏差;
- 远距离插入通常能提升性能,而近距离插入可能因严重遮挡阻碍模型训练;
- 使用与数据集风格一致的资产可缩小合成数据与真实数据的Domain Gap,更有利于下游模型训练。
结论
本文发现,现有自动驾驶世界模型对“合成数据用于下游任务的有效性”评估存在偏差。为解决这一问题,本文提出Dream4Drive——一种3D感知合成数据生成流程,可合成高质量多视角极端场景(corner cases)。
为助力未来研究,本文还构建了大规模3D资产数据集DriveObj3D,涵盖驾驶场景中的典型类别。大量实验表明,仅添加不足2%的合成数据,Dream4Drive即可持续提升下游感知任务性能,充分验证了合成数据对自动驾驶的实用价值。

发表回复