2025-11-25 浙大一篇中稿AAAI’26的工作DiffRefiner:两阶段轨迹预测框架,创下NAVSIM新纪录!

原文链接:https://mp.weixin.qq.com/s/xXcWpbLVOB5bexJaenY1AQ

与自动驾驶中预测自车固定候选轨迹集的判别式方法不同,扩散模型等生成式方法能够学习未来运动的潜在分布,实现更灵活的轨迹预测。然而由于这些方法通常依赖于对人工设计的轨迹锚点或随机噪声进行去噪处理,其性能仍有较大提升空间。

浙江大学&纽劢的团队提出一种全新的两阶段轨迹预测框架DiffRefiner:第一阶段采用基于Transformer的proposal解码器,通过对传感器输入进行回归,利用预定义轨迹锚点生成粗粒度轨迹预测;第二阶段引入扩散Refiner,对初始预测结果进行迭代去噪与优化。通过融合判别式轨迹proposal模块,本文为生成式精炼过程提供了强有力的引导,显著提升了基于扩散模型的规划性能。此外,本文设计了细粒度去噪解码器以增强场景适应性,通过加强与周围环境的对齐,实现更精准的轨迹预测。实验结果表明,DiffRefiner达到了当前最优性能:在NAVSIM v2数据集上达到87.4的EPDMS分数,在Bench2Drive基准测试中获得87.1的驾驶分数(DS)和71.4%的成功率(SR),在两个公开基准测试中均创下新纪录。消融实验也验证了各组件的有效性。

  • 论文标题:DiffRefiner: Coarse to Fine Trajectory Planning via Diffusion Refinement with Semantic Interaction for End to End Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2511.17150
  • Code:https://github.com/nullmax-vision/DiffRefiner

一、背景回顾

近年来,端到端自动驾驶(E2E-AD)取得了显著进展,其能够直接将原始传感器输入映射为驾驶动作或轨迹规划。与依赖分离的感知、预测和规划模块的传统方法不同,端到端方法以统一的方式优化整个驾驶过程,从而提升了鲁棒性,简化了部署流程。

图1展示了端到端规划的不同范式:(a)单阶段判别式方法;(b)单阶段生成式扩散方法;(c)本文提出的粗到细框架,融合了判别式proposal构建与生成式扩散精炼。

用于自车轨迹预测的传统方法通常对感知特征或相机输入进行单次回归。尽管计算效率较高,但这些基于回归的方法在处理轨迹预测任务的多模态特性方面存在根本性局限。回归优化过程会对多模态行为进行平均处理,导致在复杂十字路口等场景下的预测效果欠佳,进而在真实驾驶场景中表现出较差的泛化能力。

为解决这些挑战,近期研究开始探索离散化解空间。例如,一些基于评分的方法采用离线聚类的轨迹锚点作为离散运动候选,将轨迹预测转化为分类问题。通过评估每个锚点与人类驾驶示范的相似度,或利用离线仿真评估给出的分数,这些方法能够学习未来运动的分布。然而,随着锚点集规模的增大,计算复杂度会显著增加,限制了此类方法在对延迟敏感的自动驾驶系统中的部署可行性。

一个日益受到关注的研究方向是利用扩散模型解决驾驶行为的多模态挑战。基于其在图像和视频生成领域的显著成功,这些方法在轨迹预测方面展现出巨大潜力。如图1(b)所示,这些模型为轨迹预测提供了一个连续的生成式框架。通过对高斯分布样本进行迭代去噪,它们能够生成多样化、物理上合理的轨迹,同时自然捕捉驾驶决策中固有的多模态特性。

DiffusionDrive通过对锚点参数化的高斯混合模型采样进行去噪,生成多样化的实时轨迹。然而,当前基于扩散模型的方法在初始化过程中存在关键局限:这些方法依赖于无结构的高斯噪声或固定的轨迹衍生锚点,两者均缺乏场景适应性。当初始样本偏离可行运动分布时,需要大量去噪迭代步骤,进而导致计算延迟增加。

为解决这些问题,本文提出DiffRefiner,一种新颖的两阶段轨迹预测框架,采用粗到细的架构设计。基于Transformer的proposal解码器首先通过对预定义锚点库进行回归,生成粗粒度轨迹预测,产生结构化先验,为后续精炼提供高层引导。第二阶段采用条件扩散精炼器,通过生成式扩散过程对这些初始预测进行迭代优化,从而捕捉轨迹细节。这种混合方法通过引入判别式轨迹proposal,为后续生成式精炼过程提供了优质初始化,显著提升了基于扩散模型的规划性能。

为增强场景适应性,本文提出细粒度去噪解码器,利用约束扩散实现预测轨迹与周围环境的精准对齐。具体而言,本文设计了细粒度语义交互模块,将环境约束系统地融入轨迹精炼过程。该模块通过三个阶段运作:首先,交叉注意力层建立轨迹特征与BEV语义区域(如可行驶区域和障碍物)之间的密集对应关系,以编码整体全局上下文和场景级依赖;其次,可变形注意力选择性地将轨迹端点与关键区域语义对齐,提取细粒度局部结构和交互线索;最后,自适应门控网络动态融合全局场景表征与局部语义信息,使模型能够平衡粗粒度上下文理解与精准空间对齐。这种分层设计有助于在基于扩散模型的精炼框架中实现精准、上下文感知的轨迹优化。

在实验中,本文在开环真实世界数据集NAVSIM和闭环仿真基准测试Bench2Drive上对DiffRefiner进行了评估。实验结果表明,DiffRefiner达到了当前最优性能:在NAVSIM v2上获得87.4的EPDMS分数,在Bench2Drive上获得87.1的DS和71.4%的SR,在两个公开基准测试中均创下新纪录。

本文的主要贡献如下:

  1. 提出一种粗到细规划框架,首先生成基于锚点的高效轨迹proposal作为强先验,然后通过基于扩散模型的精炼对其进行优化;
  2. 设计带有场景感知语义交互模块的细粒度去噪解码器,通过在去噪过程中优化环境对齐,实现精准的轨迹精炼;
  3. DiffRefiner在开环真实世界基准测试NAVSIM v2和闭环仿真基准测试Bench2Drive上均取得了当前最优(SOTA)性能。

三、DiffRefiner算法详解

整体框架

感知模块

proposal解码器

扩散细化器

在第二阶段,基于扩散的refiner通过条件去噪优化所有轨迹proposal,生成更真实且上下文相关的预测。具体而言,如图3所示,本文设计了细粒度去噪解码器,在迭代细化过程中明确施加轨迹-环境对齐约束,确保增强对场景语义和动态的依从性。

训练损失

四、实验结果分析

实验设置

本文采用两个广泛认可的基准:用于开环评估的NAVSIM v2和用于闭环测试的Bench2Drive。

NAVSIM:NAVSIM基于Openscene数据集,是一个真实世界的、以规划为核心的基准,用于在开环场景下评估自动驾驶模型。本文在Navtest数据集上进行评估,该数据集包含12146帧,涵盖交叉路口、动态代理和各种交通条件等多样化场景。为衡量规划性能,本文使用NAVSIM v2中引入的扩展预测驾驶模型分数(EPDMS)。

Bench2Drive:Bench2Drive是基于CARLA的闭环评估基准,旨在评估端到端自动驾驶系统在交互式城市场景中的性能。本文在220条路线上评估模型,这些路线涵盖44个多样化的交互式场景。官方指标包括驾驶分数(DS)、成功率(SR)和多能力分数,这些指标共同衡量导航性能、安全性和规则遵守情况。

实现细节:对于NAVSIM基准,本文使用标准的navtrain数据集进行训练。与NAVSIM v2挑战赛规范一致,本文的模型处理来自前视、左前视和右前视摄像头的同步多视角输入。训练采用384的批次大小和4e-4的学习率,共训练100个epoch,感知预训练和端到端微调阶段采用相同的训练调度。对于Bench2Drive评估,本文遵循TF++建立的数据集配置和预处理流程。两个基准均采用20个聚类轨迹锚点进行proposal初始化,并将所有proposal传递到细化模块。所有实验均在由8块NVIDIA RTX 4090 GPU组成的集群上进行。

与SOTA对比

NAVSIM上的结果:本文在NAVSIM v2基准上进行了全面的开环评估。如表1所示,本文的框架实现了新的最先进性能,大幅超越了之前的最佳方法,在ResNet34骨干网络下提升了3.7%,在V2-99骨干网络下提升了1.6%。结果显示在安全关键指标上有显著提升,验证了本文架构设计的有效性。

Bench2Drive上的结果:本文在Bench2Drive基准的闭环场景下进一步评估了本文的方法。如表2所示,本文的方法优于所有现有的基于学习的基准,实现了最先进的结果。在不使用模型集成的情况下,与之前的最佳方法HiPAD相比,驾驶分数(DS)提升了0.3,成功率(SR)提升了2.3。与现有的判别式或全生成式方法不同,本文的框架采用混合生成式范式,将基于粗锚点的proposal与基于扩散的细化相结合。这种设计在大多数多能力指标上均取得了持续提升,证明了其在多样化交互式驾驶场景中的鲁棒性和有效性。

消融实验

规划框架的消融:表3评估了本文规划框架中每个阶段的影响。第1行和第6行的对比表明,引入细化器使EPDMS提升了1.2,证实其显著提升了轨迹proposal的质量。第2行和第6行进一步表明,更高质量的proposal提高了细化的上限,其中第2行采用两次去噪迭代,而第6行仅使用一次迭代。同时,第1行和第5行表明,适当的细化器监督有助于proposal学习。最后,第4行和第6行的对比突显了本文的生成式细化器相对于判别式替代方案在执行细粒度轨迹调整方面的优势。

细化器组件的消融:如表4所示,本文对细化器解码器中的每个模块进行了系统性消融,以评估其贡献。结果显示所有组件均带来了持续提升,验证了整体设计的有效性。对比第4-6行,语义交互机制通过利用细粒度语义线索,逐步提升了场景理解能力并减少了与碰撞相关的错误。

细粒度语义交互模块(FGSIM)组件的分析:如表5所示,全局上下文和局部目标线索各自独立带来了性能提升,证明了它们的互补作用。然而,将两者简单相加融合会因信息冲突导致性能下降。相比之下,本文的门控机制自适应地平衡了它们的贡献,实现了最佳性能,证实了自适应特征融合的优势。

去噪步骤的消融:表6的结果表明,仅需一次去噪步骤即可实现接近最优的性能。这一发现突显了高质量proposal作为强先验的有效性,能够实现高效的基于扩散的细化,并表明本文的框架适用于实时端到端自动驾驶。

定性分析

如图4所示,在复杂的交互式场景中,本文的方法优于DiffusionDrive,能够更好地关注细粒度场景细节。它减少了与周围代理的碰撞,并更严格地遵守地图约束,生成了更高质量的轨迹。

结论

浙江大学&纽劢的团队提出了DiffRefiner,这是一种用于端到端自动驾驶规划的新的两阶段轨迹预测框架。DiffRefiner结合了一个基于Transformer的proposal解码器来生成粗略的轨迹,为后续的生成式细化提供了强有力的指导。扩散细化器通过使用细粒度解码器的迭代去噪进一步改进了这些建议,从而增强了场景合规性,并产生了更准确和逼真的轨迹。在NAVSIM v2和Bench2Drive上进行的广泛实验表明,DiffRefiner取得了最新的SOTA!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论