2026-03-26 浙江大学&新加坡国立大学联合Udeer.AI推出DynFlowDrive：流模型驱动自动驾驶动态世界建模，性能提升无额外开销！

原文链接：https://mp.weixin.qq.com/s/1WiRaqgToTFMDkBu9nQdlw

论文卡片

DynFlowDrive提出了一种基于流模型的动态潜在世界模型，通过显式建模轨迹条件下的场景动态演化和稳定性感知的多模态轨迹选择策略，显著提升了自动驾驶系统的轨迹规划可靠性与安全性。

论文框架: Overview of DynFlowDrive. Given current observations, multi-mode trajectories are firstly generated by the standard planning module. A flow-based dynamic latent world model is incorporated to simulate the progressive future evolution in latent space. The resulting dynamics are used by a stability-aware multi-mode selection module, which assess the trajectory based on reconstruction quality and flow-based stability, enabling reliable supervision and improved planning robustness.

论文效果: (a) Comparisons of perception-based and latent world model-based approaches on nuScenes and NavSim benchmarks. (b) Planning visualization on the front view and bird’s-eye-view (BEV) space. Our DynFlowDrive achieves comparable performance.

主要结果: Comparison of the SOTA methods on the nuScenes dataset. “∗” denotes the re-implemented result from SSR [23] by official public codes. “ denotes using ego status in the planning module following BEVPlanner [30]. Evaluations are conducted in the same way as the settings in VAD [20]. Our DynFLowDrive are implemented based on LAW [24] and SSR. LAW adopts Swin-Tiny [38] as image backbone, while others adopt ResNet-50 [15]

论文信息

标题: DynFlowDrive: Flow-Based Dynamic World Modeling for Autonomous Driving

代码: https://github.com/xiaolul2/DynFlowDrive

论文: https://arxiv.org/abs/2603.19675v1

附言: 18 pages, 6 figs

作者: Xiaolu Liu, Yicong Li, Song Wang, Junbo Chen, Angela Yao, Jianke Zhu

单位: 浙江大学, 新加坡国立大学, Udeer.AI

日期: 2026-03-20 06:19:31

领域: Computer Vision and Pattern Recognition (cs.CV), Robotics (cs.RO)

页数: 18 pages, 6 figures, 6 tables

论文概述

研究背景与问题

当前研究领域的背景
自动驾驶系统中，世界模型（World Model）被用于预测未来场景演化以支持轨迹规划。现有方法主要分为两类：1）显式生成像素级场景或3D占用网格（如扩散模型、自回归模型），但计算开销大且忽略几何动态；2）隐式建模潜在空间特征（如LAW、SSR），但采用静态映射（一步回归）难以捕捉动态过程，导致轨迹评估不准确。

现有方法存在的问题和局限性

• 显式场景预测方法：依赖高分辨率视觉细节（如纹理、光照），但忽略底层几何动态，计算效率低且不利于动作导向的推理。
• 静态潜在模型：将未来状态视为当前状态的直接映射，无法建模场景演变的连续动态过程。例如，车辆接近行人时，急刹与渐停的轨迹虽终点相似，但动态演化差异显著，静态模型无法区分其安全性。

论文方法

核心创新点

1. 动态流模型建模

• 区别于静态回归：通过连续速度场建模场景动态演化，而非一步映射，能够捕捉轨迹条件下的物理合理性。
• 技术突破：修正流框架显式学习潜在状态的演化路径，支持渐进式未来预测，提升轨迹预测的时空一致性。

2. 稳定性感知的多模态选择

• 动态稳定性评估：首次引入速度场方向一致性作为轨迹选择标准，弥补传统几何误差（如ADE/FDE）对动态安全性的忽视。
• 综合评估指标：结合重建误差、轨迹误差和动态稳定性，实现更鲁棒的轨迹评估。

3. 高效潜在表示学习

• 使用预训练基础模型（如VAE）提取稳定潜在特征，避免直接依赖传感器输入导致的表示漂移。

实验结果

实验设置和数据集

• 数据集：nuScenes（开放循环）和NavSim（闭环仿真）。
• 指标：L2位移误差（1s/2s/3s）、碰撞率（CR）、PDMS（NavSim综合评分）。

主要实验结果

1. nuScenes基准
- • BEV模型：基于SSR的DynFlowDrive将L2误差从0.39m降至0.31m，碰撞率从0.15%降至0.14%。
- • 非BEV模型：基于LAW的DynFlowDrive将L2误差从0.61m降至0.57m，碰撞率从0.30%降至0.22%。
2. NavSim基准
- • PDMS：达到88.7%，超越基线WoTE（88.3%）和DiffusionDrive（88.1%）。

消融实验

• 动态流模型：相比静态Transformer模型，3s L2误差降低0.07m，碰撞率降低0.03%。
• 稳定性选择：结合动态稳定性后，L2误差进一步降低0.02m，碰撞率降低0.01%。
• 流积分步数：5步时性能最佳（L2误差0.57m，碰撞率0.22%），过多步数导致过平滑。

结论与影响

论文的主要贡献

1. 提出首个基于流模型的动态潜在世界模型，显式建模轨迹条件下的场景动态演化。
2. 引入稳定性感知的多模态选择策略，显著提升轨迹规划的安全性。
3. 在nuScenes和NavSim基准上均取得SOTA性能，且无额外推理开销。

对领域的影响

• 理论层面：为自动驾驶世界模型提供了动态建模的新范式，强调连续演化过程的重要性。
• 实践层面：通过稳定性评估机制，为复杂场景下的安全规划提供可靠工具。

未来工作方向

1. 结合视觉-语言模型（VLM）增强语义推理能力。
2. 提高罕见场景（corner case）下的鲁棒性。
3. 扩展至多车协同规划与大规模动态环境建模。

论文精读

图 1：(a) 基于感知和基于潜在世界模型的方法在 nuScenes 和 NavSim 基准上的比较。(b) 在前视图和鸟瞰图（BEV）空间中的规划可视化。本文的 DynFlowDrive 实现了相当的性能。

摘要

最近，世界模型被引入自动驾驶系统中以提高规划的可靠性。现有方法通常通过外观生成或确定性回归来预测未来状态，这限制了其捕捉轨迹条件下的场景演化能力，并导致不可靠的动作规划。为了解决这个问题，本文提出了 DynFlowDrive，一种利用流式动力学建模不同驾驶动作下世界状态转移的潜在世界模型。通过采用修正流公式，该模型学习一个速度场，描述在不同驾驶动作下场景状态如何变化，从而实现对未来潜在状态的渐进式预测。在此基础上，论文进一步引入了一种稳定性感知的多模式轨迹选择策略，根据所引发的场景转换的稳定性评估候选轨迹。在 nuScenes 和 NavSim 基准上的大量实验表明，在各种驾驶框架中均实现了持续改进，且没有增加额外的推理开销。源代码将在 https://github.com/xiaolul2/DynFlowDrive 上发布。

1 引言

端到端自动驾驶已成为构建驾驶系统的一种有前途的范式 [3, 7, 10, 18]。给定车载传感器捕获的数据，它旨在预测安全可靠的未来轨迹用于规划和控制 [4, 18, 50]。然而，轨迹规划是一个与周围环境高度交互的过程。一条计划的轨迹代表了预期的动作，其安全性取决于执行后环境的响应方式。因此，实现可靠和安全的规划需要预测未来的场景演化，这仍然是自动驾驶系统面临的关键挑战。

为了使车辆具备这种前瞻性能力，新的研究方向引入了世界模型 [1, 22] 来用于端到端方法 [14, 49]。通过实现动作条件的未来模拟，这些方法允许系统预见候选轨迹的后果并预测潜在风险，从而支持更安全和可靠的驾驶决策。世界模型主要遵循两种方法：一种工作线显式地预测未来场景，例如通过生成像素级图像或3D占用网格 [47,56, 58,60]。相比之下，另一种工作线在潜在空间中建模世界的场景预测 [24, 55, 62]，而不需要显式重建完整场景。

尽管取得了进展，现有的世界模型仍然存在关键限制。对于显式的场景级预测，许多方法依赖于扩散模型 [12, 40] 或自回归模型 [16, 58] 来合成未来的观察结果。虽然产生了视觉上令人愉悦的结果，但这些方法主要关注外观细节，如纹理和光照。对高频视觉模式的强调忽略了底层的几何结构和动态特性，这会引入额外的计算开销，而不会提高面向行动的推理能力。

另一方面，潜在空间世界模型将重点从外观合成转移到内部特征 [24, 62]。如图2 (a) 所示，大多数工作采用一步回归，直接将当前潜在状态映射到下一个时间步。这种静态公式简化了预测为刚性映射，并忽略了动态转换过程，使得难以评估候选动作的安全性和可行性。例如，当车辆接近行人时，它可能会逐渐减速以让行，或者保持速度并在最后一刻突然刹车。尽管这两种动作可能导致相似的停止位置，但其底层场景演变和安全影响是根本不同的。如果没有建模这个转换过程，世界模型就无法真实捕捉轨迹相关的动态特性，也无法评估由此产生的演变是否平滑且物理合理。

为弥合这一差距，本文认为有效的世界建模必须超越离散的端点回归，并明确地将轨迹条件下的场景演化表述为连续的动力系统。受此启发，本文提出 DynFlowDrive，一种利用基于流的动力学来建模不同驾驶动作下世界状态转移的潜在世界模型。具体而言，基于提取的潜在特征，DynFlowDrive 采用修正流公式来建模潜在空间中的转移动力学，并在当前观测和多个候选轨迹条件下预测未来的潜在状态。所学习的速度场显式地捕捉了状态转移过程中场景变化的速率，使模型能够捕捉环境在不同驾驶动作下逐步演化的规律。在此基础上，进一步引入了稳定性感知的多模式轨迹选择机制。通过利用基于流的世界模型所产生的速度场，推导出一个反映轨迹条件场景转换平滑度的稳定性度量。结合与真值和潜在重建差异测量的轨迹误差，这种动力学感知的稳定标准使得规划评估和轨迹选择更加可靠，从而实现更安全的自动驾驶系统。

2 相关工作

端到端自动驾驶。传统自动驾驶系统将整个范式分解为三个阶段：感知 [29, 35, 36, 45, 46]、预测 [34, 42, 51] 和规划 [13, 32]。这种模块化设计通常会导致误差累积和大量的工程开销。为了解决这些限制，最近的研究探索了端到端自动驾驶，该方法学习从感官观测值到驾驶动作或轨迹的直接映射 [19, 20, 30, 44]。现有方法可以根据动作输出的形式大致分为三类，包括基于回归的方法 [17,20]、基于生成的方法 [31, 61] 和基于强化学习的方法 [11, 53]。在基于回归的方法中，UniAD [19]、VAD [20] 和 SparseDrive [44] 通过利用鸟瞰图（BEV）表示和向量化或稀疏查询构建端到端架构。对于生成方法，GenAD [61] 利用生成模型进行轨迹回归。DiffusionDrive [31] 和 GoalFlow [52] 则采用流匹配 [33] 和扩散策略 [5] 的范式来采样多模态动作。对于基于强化学习的方法，最近的研究 [21,26,27] 将自动驾驶表述为一个序列决策问题，通过奖励设计和与环境的交互来优化驾驶策略。此外，一些近期的方法通过注入语言上下文作为推理和决策的高层指导，将大语言模型（LLMs）整合到视觉-语言-动作（VLA）框架中 [6, 26, 63]。

然而，大多数现有的端到端驾驶方法缺乏在不同驾驶动作下对未来场景动态进行推理的能力。这一局限性促使了世界模型的发展，以模拟未来世界的演变，从而支持更明智的决策。

自动驾驶的环境模型在自动驾驶系统中，环境模型旨在预测在执行各种动作后场景的未来演变 [14,22,24,49,62]。结合下一步状态预测，现有的环境模型可分为两类：未来场景预测 [48, 49, 58–60] 和潜在空间中的特征级环境模型 [23–25, 55]。未来场景预测的代表性工作专注于直接预测未来的观测结果或结构化场景表示。例如，GenAD [54]、DrivingFuture [49] 和 Epona [58] 预测基于动作的未来像素级场景，而 DriveDreamer4D [59] 将这一范式扩展到使用 4D 高斯点绘重建的 4D 动态场景生成。其他方法如 UniOcc [48] 和 OccWorld [60] 在体素化或占用空间中运行，预测未来的 3D 占用或语义场以建模场景演变。与显式场景预测相辅相成的是另一条研究路线，它在紧凑的潜在空间中学习环境模型，在该空间中，模型预测中间特征上的动作条件转换，而不是重建完整的观测结果。LAW [24] 和 World4Drive [62] 在潜在特征空间中构建用于规划导向预测的环境模型，而 SSR [23] 和 WoTE [25] 进一步探索了 BEV 空间中的潜在建模，超越了透视视图表示。

对于本文的设计，DynFlowDrive 避免显式的像素级场景生成，而是在潜在空间中进行操作，专注于对世界演化的底层动态进行建模，以实现动作条件预测。

稳定性感知 Fig. 3: DynFlowDrive 概述。给定当前观测，多模式轨迹首先由标准规划模块生成。引入了一个基于流的动态潜在环境模型，以模拟潜在空间中的渐进式未来演化。所得的动力学被稳定性感知的多模式选择模块所利用，该模块根据重建质量和基于流的稳定性评估轨迹，从而实现可靠的监督和改进的规划鲁棒性。

3 方法

3.1 轨迹规划范式

该公式提供了一组多样化的轨迹假设，同时保持统一的基于查询的解码结构，这为后续的轨迹选择和动态世界建模奠定了基础。

3.2 动态潜在世界模型

3.3 稳定性感知的多模式选择

3.4 训练和推理设置

4 实验

4.1 数据集和评估指标

4.2 实现细节

4.3 主要结果

图6：nuScenese数据集上的规划结果可视化。感知表示是从标注中渲染的。周围的浅色线条表示场景的地图，而黑色框代表目标检测。自车用中心的绿色框表示。

4.4 消融研究

在本节中，本文进行了全面的消融研究，以探讨DynFlowDrive设计的有效性。为了公平比较，所有消融实验均在nuScenes基准上进行。关于NavSim基准的更多消融和分析，请参见本文的补充材料。

组件设计验证。在本节中，本文进行消融研究以评估每个组件及其组合的贡献。如表3所示，从没有BEV表示或世界建模模块的普通端到端自动驾驶范式开始，引入基于静态transformer的世界模型仅带来微小的改进。通过引入本文提出的动态潜在世界模型，平均L₂误差减少了0.1米，碰撞率降低了11%，这表明动态模拟世界演化的益处。此外，当与稳定性感知的多模式选择相结合时，DynFlowDrive实现了最佳的整体性能，达到0.57米的L₂误差和0.22%的碰撞率。这些结果验证了动态演化建模和稳定性引导的模式选择共同有助于更安全、更准确的轨迹规划。对于推理过程，不会引入额外的计算负担，因为基于流的世界模型仅在训练期间使用，并不参与前向预测管道。

表2：NavSim测试集上与最先进的方法比较。C: 相机。L: 激光雷达。基于规则表示轨迹评估遵循特定规则。无模型表示没有世界建模的评估。有模型表示在世界模型辅助下进行轨迹评估。