2026-03-16 ICLR 2026 | FlowAD:隐空间时空世界模型构建自车场景交互新范式(上交&百度)

原文链接:https://mp.weixin.qq.com/s/x5Vf_GQTR0k2bOf4TJdROQ

一句话总结: 通用场景建模增强,同时提升自驾场景感知模型(检测,跟踪,occ),端到端,VLM模型

  • 论文标题:FLOWAD: EGO-SCENE INTERACTIVE MODELING FOR AUTONOMOUS DRIVING
  • 论文链接:https://openreview.net/pdf?id=m4JpoJRgAr
  • 代码链接:https://github.com/AutoLab-SAI-SJTU/FlowAD

当前端到端自动驾驶常陷入“反应式规划”的误区,忽略了自车动作对环境反馈的闭环影响。针对这一难题,上海交大与百度联合提出 FlowAD 框架。该框架的核心在于显式建模相对场景流(Scene Flow),让模型在特征层面上理解“动作如何重塑观测”。FlowAD 在 nuScenes 上实现了 19% 的碰撞率降低和 60% 的响应速度提升。这一突破标志着端到端模型正从“被动观察者”向具备“交互认知能力”的智能体演进。

一、引言

自动驾驶正从模块化设计向端到端(E2E)架构转变。然而,现有的架构通常将规划模块作为最后的计算步骤:每个推理周期以自车规划结束,然后重置管道进行下一个时间戳的计算(如图 1a)。这种架构在很大程度上忽略了自车执行的运动对其后续感知和决策的影响。

图1 朴素自驾系统、时序自驾系统、自车场景交互式自驾系统架构图

一个完整的驾驶过程应包含两部分:基于当前观测进行规划;执行控制输出,从而塑造未来的感知输入。缺少第二部分(即自车运动的反馈)本质上是一种开环训练。开环训练切断了动作与后续观测之间的联系,阻碍了模型内化自车与场景交互中复杂的动态关系。即便是引入历史状态的时序架构(如图 1b),作者也通过以下消融实验发现,其往往无法充分捕捉从自车动作到未来状态的细微反馈。

表1 UniAD时序融合的影响

具体来说,作者对经典的端到端模型 UniAD 进行了消融实验。结果揭示了一个反直觉的现象:当移除时序融合模块后,依赖时间连续性的任务(如跟踪)性能大幅下降(AMOTA 跌幅达 16%),但最终的规划性能却几乎不受影响。这说明现有的时序建模更多是在平滑感知结果,而未能真正建立起“自车动作 -> 环境反馈”的闭环来有效指导规划。

为了突破这一局限,本文提出了一种全新的 自车-场景交互建模(Ego-Scene Interactive Modeling) 范式。其核心直觉源于人类的感知-运动过程:当我们移动时,环境会产生相对于我们的“流动”。FlowAD 将这种交互显式地建模为潜空间中的“场景流”(Scene Flow)。这一设计的最大优势在于,它允许模型在特征学习阶段就捕捉自车运动的反馈,从而无需昂贵的闭环仿真,仅利用现有的 Log-replay 数据集即可训练出具备闭环特性的模型。

具体而言,FlowAD 提出了一个通用的流式框架,包含三个关键步骤:

  • 自车引导的场景划分(Ego-guided Scene Partition): 不再机械地切分图像,而是根据自车的前进方向和转向速度,动态地将视觉输入分解为“流单元(Flow Units)”,直接反映自车运动意图。
  • 时空流预测(Spatial and Temporal Flow Prediction): 基于流单元,利用世界模型(World Model)的机制,分别预测场景在空间上的位移和时间上的演变,捕捉动态交互过程。
  • 任务感知增强(Task-aware Enhancement): 将学习到的时空流动力学注入到对象级(如检测)和区域级(如规划)任务中,显著提升下游任务的性能。

通过这种方式,FlowAD 成功地在开环训练数据中“模拟”了闭环交互体验,为自动驾驶系统注入了更深层的场景理解能力。

二、方法

图2 FlowAD框架图

FlowAD 框架由三个核心组件构成:自车引导的场景划分、时空流预测、以及任务感知增强。

2.1 自车引导的场景划分

为了量化整体场景流,作者首先将视觉输入切分为“流单元(Flow Units)”(如图3)。由于相对运动主要反映在水平方向,划分是沿着多视图图像的宽度进行的。

2.1.1 划分的起始点

图3 自车引导的场景划分

2.1.2 划分大小的动态调整

2.1.3 多级划分与局部聚合

2.2 时空流预测

在将场景切分为“流单元”后,FlowAD 的核心任务就是理解这些单元是如何运动的。作者认为,自车与场景的交互主要体现在两个维度:空间的位移(景物从前向后退)和时间的演变(景物随时间变化)。

图4 时空流预测模块

2.2.1 空间流预测:从前向后的推演

模型引入了一组可学习的空间流 Query。这些 Query 就像是一组观察者,它们按照自车前进的方向,从视野的最前方开始,依次向后扫描。模型利用前方流单元的信息,通过 GRU(门控循环单元)更新内部状态,去预测后方流单元的状态。

  • 直觉: 这就像我们在开车时,看到路边的树木在前方出现,就能预判它下一秒会出现在侧后方的视野中。这种“前因后果”的空间关联被模型显式地学习了下来。

2.2.2 时间流预测:从过去到未来的预判

2.2.3 引入“世界模型”的监督

为了确保模型预测的“流”是符合物理规律的,作者巧妙地借鉴了世界模型(World Model)的训练策略:

  • 潜空间对齐: 模型不仅要输出预测结果,还要将“预测的流单元状态”与“真实观测到的流单元状态(Ground Truth)”映射到同一个潜空间分布中。
  • 学习目标: 通过最小化两者分布之间的差异(KL 散度),迫使模型去理解场景的真实动态。

最终,通过将空间流特征和时间流特征进行融合,FlowAD 获得了一个完整的、包含自车运动反馈的场景流特征,为后续的感知和规划任务提供了极其丰富的动态信息。

2.3 下游任务增强

构建好包含自车-场景交互动力学的时空流特征后,FlowAD设计了一个通用的框架,将其注入到下游任务中。根据任务特性的不同,作者提出了两种针对性的增强策略,分别服务于物体感知和全局规划:

  • 对象级增强(Object-level Enhancement): 主要针对 3D 目标检测和运动预测等任务。该策略将对象查询(Object Queries)回归出的采样点投影到图像平面,找到对应的流单元。随后,利用 Cross-Attention 机制,将流单元中包含的时空动力学信息注入到对象查询中。这使得感知模型不再仅依赖静态图像特征,而是能利用流特征来理解物体的运动趋势,显著提升跟踪稳定性。
  • 区域级增强(Region-level Enhancement): 主要服务于端到端规划和 VLM 场景分析。该策略关注整体环境语义,直接将区域特征(Region Features)与对应的流单元特征进行拼接(Concatenation),并通过卷积层融合。这种方式让规划器能够直观地“感知”自车运动对环境产生的反馈(即相对运动流),从而帮助模型理解驾驶过程中的动态交互,做出更鲁棒的决策。

三、实验

3.1 实验设置

基线方法 (Baselines)为了全方位评估 FlowAD,作者选择了各个领域的代表性方法作为基线:

  • 感知任务: 采用 SparseBEV 作为基础架构,这是一种基于稀疏对象查询(Sparse Object Queries)的感知方法。
  • 端到端规划: 选取了 SparseDrive 和 DiffusionDrive。
  • VLM 分析: 采用了 Senna。

3.2 与 SOTA 方法的对比

1. 感知更强(3D Detection):在 nuScenes 上,FlowAD 助力 SparseBEV 基线实现了显著提升。

  • mAP: 提升 3.0% (44.5% → 47.5%)
  • NDS: 提升 2.1% (55.3% → 57.4%)

这意味着引入“流”的概念让模型看这世界更清晰和精准了。

2. 规划更稳:

更安全: 在 nuScenes 开环测试中,FlowAD 相比 SparseDrive 降低了 19% 的碰撞率。反应更快: 作者提出的 FCP (Frames before Correct Planning) 指标衡量模型对指令的响应速度。FlowAD 的 FCP 仅为 0.91 帧,比基线快了 60%(基线需 2.30 帧)。

闭环能力: 在 Bench2Drive 闭环榜单中,FlowAD 取得了 51.77 的高分,显著优于 SparseDrive (44.54) 和 UniAD (45.81)。

3. 理解更深:

在结合大语言模型的规划任务中,FlowAD 尤其擅长处理复杂的转向指令。

  • 左转场景 F1 Score: 提升至 60.71%(基线 30.53%)
  • 右转场景 F1 Score: 提升至 68.17%(基线 46.94%)

3.4 可视化分析

  • 感知可视化: 对比结果显示,FlowAD 在处理部分遮挡物体(如前左侧摄像头视角)时,比 baseline SparseBEV 更稳健。这得益于学习到的流动力学补充了缺失的视觉信息。
  • 规划可视化: 在复杂的转向场景中,FlowAD 生成的轨迹更平滑且符合指令。
  • VLM 描述: FlowAD 生成的场景描述能准确捕捉周围要素,并据此做出可靠的规划元动作。

(注:更多可视化结果请参考原论文附录)

四、总结

本文指出了当前自动驾驶模型忽视自车运动反馈的局限性,并提出了 FlowAD 框架。通过自车引导的场景划分和时空流预测,FlowAD 在潜空间中显式地建模了自车与场景的交互动力学。这种设计不仅符合人类驾驶的直觉,而且无需昂贵的仿真即可利用现有数据学习闭环反馈。实验证明,FlowAD在感知、规划和VLM任务上均取得了 SOTA 性能,为构建更类人的自动驾驶系统提供了新的思路。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论