2025-06-11 新一代世界模型!GeoDrive:显式注入空间结构信息,问鼎SOTA(北大&理想)

原文链接:https://mp.weixin.qq.com/s/pgMmpZvYraEeWUskR4Mlzw

由北京大学、伯克利人工智能研究院(BAIR)与理想汽车(Li Auto)联合出品,GeoDrive 是一款面向自动驾驶的新一代世界模型系统。针对现有方法普遍依赖二维建模、缺乏三维空间感知,从而导致轨迹不合理、动态交互失真的问题,GeoDrive 首创性地将三维点云渲染过程纳入生成范式,在每一帧生成中显式注入空间结构信息,显著提升了模型的空间一致性与可控性。

🚘 GeoDrive 的三项关键技术创新:

1️⃣ 几何驱动的时序条件生成 系统以单帧 RGB 图像为输入,借助 MonST3R 网络精准估计点云和相机位姿; 结合用户提供的轨迹信息,逐帧进行投影生成,构建具有三维一致性的条件序列,确保场景结构连贯真实。

2️⃣ 动态编辑模块:突破静态渲染局限 通过融合 2D 边界框注释,GeoDrive 支持对可移动物体的灵活位置调整,解决传统渲染中“场景冻结”的假设; 在训练阶段显著提升多车交互场景的动态合理性和模拟真实度。

3️⃣ 结构增强的视频扩散生成架构 将渲染生成的条件序列与噪声特征拼接输入冻结的 Video Diffusion Transformer(DiT), 在保持光学生成质量的同时,引入结构上下文以增强三维几何保真度,实现内容与物理一致性的统一。

  • 论文链接:https://arxiv.org/abs/2505.22421

由北京大学、伯克利人工智能研究院(BAIR)与理想汽车(Li Auto)联合出品,GeoDrive 是一款面向自动驾驶的新一代世界模型系统。针对现有方法普遍依赖二维建模、缺乏三维空间感知,从而导致轨迹不合理、动态交互失真的问题,GeoDrive 首创性地将三维点云渲染过程纳入生成范式,在每一帧生成中显式注入空间结构信息,显著提升了模型的空间一致性与可控性。

🚘 GeoDrive 的三项关键技术创新:

1️⃣ 几何驱动的时序条件生成 系统以单帧 RGB 图像为输入,借助 MonST3R 网络精准估计点云和相机位姿; 结合用户提供的轨迹信息,逐帧进行投影生成,构建具有三维一致性的条件序列,确保场景结构连贯真实。

2️⃣ 动态编辑模块:突破静态渲染局限 通过融合 2D 边界框注释,GeoDrive 支持对可移动物体的灵活位置调整,解决传统渲染中“场景冻结”的假设; 在训练阶段显著提升多车交互场景的动态合理性和模拟真实度。

3️⃣ 结构增强的视频扩散生成架构 将渲染生成的条件序列与噪声特征拼接输入冻结的 Video Diffusion Transformer(DiT), 在保持光学生成质量的同时,引入结构上下文以增强三维几何保真度,实现内容与物理一致性的统一。

  • 论文链接:https://arxiv.org/abs/2505.22421

世界模型的最新进展彻底改变了动态环境的仿真,使系统能够预见未来状态并评估潜在动作。在自动驾驶中,这些能力有助于车辆预测其他道路使用者的行为、进行风险感知规划、加速仿真中的训练,并适应新场景,从而提高安全性与可靠性。当前的方法在保持 鲁棒的 3D 几何一致性或处理遮挡时存在缺陷,这在自动驾驶任务的安全评估中至关重要。为了解决这些问题,本文提出了 GeoDrive,该方法将 鲁棒的 3D 几何条件显式地整合到驾驶世界模型中,以增强空间理解能力和动作可控性。具体来说,我们首先从输入帧中提取 3D 表示,然后基于用户指定的自车轨迹获得其 2D 渲染结果。为了实现动态建模,我们在训练过程中提出了一种动态编辑模块,通过编辑车辆的位置来增强渲染效果。大量实验表明,我们的方法在动作准确性和 3D 空间感知方面显著优于现有模型,实现了更加真实、可适应和可靠的场景建模,从而提高了自动驾驶的安全性。此外,我们的模型能够泛化到新的轨迹,并提供交互式的场景编辑功能,例如目标编辑和目标轨迹控制。

引言

自动驾驶世界模型通过模拟三维动态环境,使以下关键能力成为可能:轨迹一致的视角合成、符合物理规律的运动预测,以及安全感知的场景重建和生成。特别是,生成视频模型已成为自运动预测和动态场景重建的有效工具。它们能够合成忠实于轨迹的视觉序列,这对于开发能够预见环境交互同时保持物理合理性的自主系统至关重要。

尽管取得了这些进展,但大多数现有方法由于依赖于二维空间优化,缺乏足够的三维几何感知能力。这一缺陷导致在新视角下出现结构性不连贯现象,以及物理上不合理的物体交互,这在密集交通中的避障等安全关键任务中尤其有害。此外,现有方法通常依赖密集标注(例如高精地图序列和三维边界框轨迹)来实现可控性,只能重复预设动作,而无法理解车辆动力学。

一种更灵活的方法是从单张(或少量)图像中推断动态先验信息,并以期望的自车轨迹为条件。然而,当前基于数值相机参数进行微调的方法缺乏对三维几何结构的理解,从而影响了其动作可控性和一致性。

一个可靠的驾驶世界模型应满足三个标准:

  1. 静态基础设施与动态代理之间具有严格的时空一致性;
  2. 对自车轨迹具有三维可控性;
  3. 对非自车代理的运动模式施加运动学约束。

我们通过一个混合神经-几何框架实现了这些需求,该框架显式地在整个生成序列中强制执行三维几何一致性。首先,我们从单目输入中构建三维结构先验,然后沿着用户指定的相机轨迹进行投影渲染,以生成基于几何条件的引导信号。我们进一步采用级联视频扩散模型,通过三维注意力去噪机制细化这些投影,在优化光度质量的同时提高几何保真度。对于动态目标,我们引入了一个物理引导编辑模块,该模块在明确的运动约束下变换代理外观,以确保物理上合理的交互。

我们的实验表明,GeoDrive显著提升了可控驾驶世界模型的性能。具体而言,我们的方法改善了自车动作的可控性,将轨迹跟踪误差降低了 42%,相较于 Vista模型。此外,我们在视频质量指标方面也取得了显著提升,包括 LPIPS、PSNR、SSIM、FID 和 FVD。此外,我们的模型能够有效泛化到新的视角合成任务,在生成视频质量上超越了 StreetGaussian。除了轨迹控制外,GeoDrive 还提供了交互式场景编辑功能,如动态目标插入、替换和运动控制。此外,通过整合实时视觉输入与预测建模,我们增强了视觉语言模型的决策过程,提供了一个交互式仿真环境,使路径规划更加安全和高效。

相关工作回顾

自动驾驶世界模型
世界模型已成为使智能体能够在复杂动态环境中预见和行动的基石,在自动驾驶领域提出了独特的挑战,包括大视野、高度动态的场景以及对鲁棒泛化能力的需求。近年来的研究探索了多种用于未来预测的生成框架,利用点云、占据网格和图像等表示方法。

基于点云的方法利用激光雷达捕捉到的详细几何信息来预测未来状态,并实现空间几何和动态交互的精确建模。基于占据网格的方法进一步将环境离散化为体素网格,以更细粒度和几何一致性的方式建模场景演变。

基于图像的世界模型因其传感器灵活性和数据可访问性而展现出更大的扩展潜力。它们通常利用强大的生成模型来捕捉真实世界环境的复杂视觉动态,使其在感知和规划任务中特别有价值。

尽管现有的生成模型(如 DriveDreamer和 DrivingDiffusion)通过依赖密集标注(例如高精地图序列和长期的 3D 边界框轨迹)实现了准确的场景控制,但它们只能重复预设动作,而无法真正理解车辆动力学。一种更灵活的方法是直接从单张(或少量)图像中推断动态先验信息,同时结合所需的自车轨迹进行条件设定。最近的系统如 Vista、Terra和 GAIA 1&2通过将原始数值控制向量直接注入生成主干网络,实现了基于动作的生成。然而,由于控制向量并未显式地与视觉潜在空间对齐,导致生成的动作信号较弱,常常导致控制不稳定,需要更大的训练数据集才能收敛。

相比之下,我们的方法将动作命令作为视觉条件输入进行渲染,这与生成潜在空间自然对齐,从而提供了更强的控制信号,并显著提高了生成结果的稳定性和可靠性。

视频生成的条件控制
扩散生成模型已经从文本到图像系统演变为完全多模态的引擎,能够按需合成整个视频序列。在这个过程中,研究重点稳步转向条件生成——为用户提供明确的控制手段来引导输出。ControlNet、T2I-Adapter 和 GLIGEN等里程碑首次将条件信号嵌入文本到图像的流程中;后续研究将其扩展到视频领域,允许使用 RGB 关键帧、深度图、目标轨迹 或语义掩码进行控制。然而,6 自由度相机路径的控制仍然困难。基于 LoRA 的粗略运动类别、数值矩阵条件、深度变形方案和 Plücker 坐标编码各有不足——要么控制不精确,要么覆盖域有限,或者从数字到像素的映射间接。

规划器和安全模块需要帧级别的精度,因此诸如 DriveDreamer和DrivingDiffusion等生成器依赖密集的高清地图序列和长期的 3D 框轨迹来锁定场景到预定路线。其他系统如 Vista、GAIA 1&2 将控制向量直接注入主干特征,但数值命令与视觉特征之间的不匹配削弱了信息,减缓了优化过程,并经常产生漂移。在本工作中,我们提出使用显式的视觉条件来进行精确的自车轨迹控制。

算法详解

从参考图像中提取 3D 表示

带动态编辑的 3D 视频渲染

双分支控制以实现时空一致性

实验结果

结论

我们提出了 GeoDrive,这是一种用于自动驾驶的视频扩散世界模型,通过显式的米级轨迹控制和直接的视觉条件输入增强了动作可控性和空间准确性。我们的方法重建了三维场景,沿着期望的轨迹进行渲染,并使用视频扩散优化输出。评估表明,我们的模型在视觉真实感和动作一致性方面显著优于现有模型,支持诸如非自车视角生成和场景编辑等应用,从而设定了新的基准。

然而,我们的性能依赖于 MonST3R 对深度和姿态估计的准确性,仅依靠图像和轨迹输入进行世界预测仍具有挑战性。未来的工作将探索结合文本条件和 VLA 理解以进一步提高真实感和一致性。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论