2025-10-13 Diffusion²:一个双扩散模型,破解自动驾驶“鬼探头”难题!

原文链接:https://mp.weixin.qq.com/s/RX_k7Ym4CGqVJff5cbGlbw

同济大学和威斯康星大学麦迪逊分校最近的一篇工作,很有意思分享给大家。这篇工作指出一个问题:当行人突然从盲区出现时,往往无法获得足够的观测数据(即瞬时轨迹),因此交通事故的风险很高。换句话说就是鬼探头的场景,如何做好行人的轨迹预测。

针对这个问题,他们提出了Diffusion² – 专为瞬时轨迹预测而设计。Diffusion²由两个串联的扩散模型组成:一个用于反向预测,生成未观测到的历史轨迹;另一个用于正向预测,预测未来轨迹。考虑到生成的未观测历史轨迹可能会引入额外的噪声,提出了一种双头参数化机制来估计其偶然不确定性(aleatoric uncertainty),并设计了一个时间自适应噪声模块,该模块在前向扩散过程中动态调节噪声尺度。实验证明,Diffusion2在ETH/UCY和斯坦福无人机(Stanford Drone)数据集上的瞬时轨迹预测任务中树立了新的最先进水平。

  • 论文标题: Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction
  • 机构: 威斯康星大学麦迪逊分校、华盛顿大学、同济大学
  • 论文链接:https://arxiv.org/abs/2510.04365

背景回顾与主要贡献

准确的行人轨迹预测对于自动驾驶至关重要,因为它增强了车辆的安全性,尤其是在涉及人车交互的场景中。近年来,很多算法都在尝试解决这一任务。通常这些方法侧重于基于足够长的观测期(例如8帧,约3.2秒)来预测未来轨迹。然而,在许多现实场景中,例如当行人突然出现在障碍物(如建筑物或卡车)后方时,车辆没有足够的时间来收集充分的观测数据。这对传统的预测方法提出了巨大挑战,常常导致预测性能显著下降,甚至增加了交通事故的风险。在SDD数据集中,仅有瞬时观测的行人的出现频率达到2.22 s⁻¹,在ETH/UCY数据集中为1.02 s⁻¹。因此,研究仅使用有限观测数据的行人轨迹预测至关重要。

尽管已有工作证明联合预测历史轨迹以丰富上下文信息、弥补瞬时观测局限性的有效性,但它同时共同预测历史和未来轨迹,忽略了这两个组成部分之间的因果关系。在本研究中,我们以顺序方式分别预测历史和未来轨迹。具体而言,我们提出了一种名为Diffusion2的模型,用于瞬时行人轨迹预测。在扩散模型优势的基础上,我们的框架采用了两个串联的组件:一个用于反向预测,另一个用于正向预测,如图1所示。

随之而来的一个问题是预测出的历史轨迹的可靠性:如果它们高度不准确或包含噪声,则可能对后续的未来轨迹预测产生不利影响。因此,量化预测历史轨迹的不确定性并选择性地利用可靠信息进行下游预测任务至关重要。然而,扩散模型仅隐式地学习数据分布,缺乏显式量化不确定性的能力。为了填补这一空白,我们设计了一种双头参数化机制,该机制通过引入两个输出头来增强标准的噪声预测网络。

第一个头预测噪声,第二个头则估计每个坐标的对数方差,从而能够直接量化偶然不确定性

随后,为了结合估计的偶然不确定性,我们设计了一个时间自适应噪声调度器,它根据预测的不确定性水平,动态地将噪声注入到前向扩散模型中。直观上讲,当历史轨迹高度不确定时,会向正向扩散模型注入更多噪声,以鼓励生成过程中的探索;而当不确定性较低时,则减少噪声的添加。

总而言之,我们研究的主要贡献如下:

  • 提出了Diffusion²,这是一个新颖的框架,由两个顺序的扩散模型组成,能够捕捉轨迹的因果依赖性:一个用于反向预测,另一个用于正向预测
  • 提出了一种双头参数化机制,使反向预测的扩散模型能够在单次采样中量化偶然不确定性,并进一步为正向预测扩散模型引入了一种自适应噪声调度策略,该策略根据估计的不确定性动态调整噪声的大小。
  • Diffusion²在瞬时行人预测中实现了SOTA,这一点在ETH/UCY和斯坦福无人机数据集上的实验得到了证实。

预备知识

A. 问题定义

B. 去噪扩散概率模型

算法详解

A. 整体架构

B. 双头参数化

C. 时序自适应可学习噪声调度

D. 损失函数

E. 模型推理

实验结果

结论与讨论

在本研究中,我们提出了一种名为 Diffusion2 的全新框架,专为瞬时轨迹预测而设计。我们提出的模型由两个顺序连接的扩散模型组成:一个用于生成未观测到的历史轨迹,另一个用于预测未来轨迹。考虑到预测出的历史轨迹可能引入噪声,我们设计了一种双头参数化机制来估计其不确定性,并设计了一个可学习的自适应噪声模块,在前向扩散过程中动态调整噪声尺度。实验证明,我们的 Diffusion2 在多个数据集上均优于现有的最先进方法。

同时,我们也注意到,基于扩散的框架存在固有的局限性。特别是,其迭代采样过程导致推理速度较慢,这可能会阻碍其在实时场景中的部署。此外,由于训练过程涉及优化多个扩散阶段,计算成本可能很高。

在未来的工作中,我们计划探索更高效的训练和推理方法,以降低计算资源开销,同时保持预测质量。

局限性。 

尽管 Diffusion2 取得了良好的结果,但它仍然存在局限性。我们观察到在交互密集的场景(例如 UNIV 数据集中的场景)中,其适应能力有所下降。在未来的工作中,我们将改进其效率和鲁棒性,并在更复杂的交通场景中验证该框架的有效性。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论