原文链接:https://mp.weixin.qq.com/s/uNIM27LJ70fSrsgVAG7x7A
今年学术界和工业界很大的精力都投入在Action的建模上,也就是自车轨迹的输出。先前的MLP只能输出单模的轨迹,实际使用中无法满足下游不确定性的需求。所以从去年开始,我们看到了生成式的很多算法问世。
经过这一年的发展,生成式的算法进一步收敛到Diffusion和Flow matching两个方向上。自动驾驶之心了解到上半年有不少公司都在尝试将这两种方法落地量产,期间坎坷无需多言。
今天为大家分享的是一篇北交&轻舟智航等团队最新的工作,提出一种基于Constrained Flow Matching的新型规划框架GuideFlow,整体效果还不错。
具体而言,GuideFlow显式建模流匹配过程,该过程本质上可缓解模态坍塌的问题,并能灵活融合多种条件信号的引导。本文的核心贡献在于,将显式约束直接嵌入流匹配生成过程,而非依赖隐式约束编码。关键创新点在于,GuideFlow将流匹配与Energy-Based模型的训练相统一,增强模型自主优化能力,以满足物理约束。其次,GuideFlow将驾驶激进度参数化为生成过程中的控制信号,实现对轨迹风格的精准调控。在主流驾驶基准数据集(Bench2Drive、NuScenes、NavSim和ADV-NuScenes)上的大量实验验证了GuideFlow的有效性。值得注意的是,在NavSim测试集的高难度子集(Navhard)上,GuideFlow取得了当前最优(SOTA)性能,其扩展PMD分数(EPDMS)达到43.0。
- 论文标题:GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving
- 论文链接: https://arxiv.org/abs/2511.18729
一、背景回顾

近年来,端到端自动驾驶(E2E-AD)已成为传统模块化流水线的一种极具吸引力的替代方案。与单独优化感知、预测和规划模块不同,端到端自动驾驶将整个驾驶过程构建为一个可微分的统一系统,能够通过数据进行整体训练。以UniAD为代表的框架便是该方向的典型范例,其将空间感知、在线建图、运动预测和控制决策等功能耦合在一个连贯的架构中。这种联合范式支持跨任务推理,有效减轻了分阶段设计中常见的级联误差问题。其中,规划模块的核心作用是预测可行的、面向目标的轨迹,最终决定车辆的行驶行为。
近年来,端到端自动驾驶规划技术已从单模态轨迹生成向多模态轨迹生成演进,以更好地反映真实驾驶场景中的固有不确定性。在许多场景中,往往存在多种合理的驾驶意图,但单模态端到端自动驾驶规划器仅能输出一条确定性路径,限制了系统的鲁棒性。相比之下,多模态端到端自动驾驶规划方法会预测多条候选轨迹,提供更丰富的意图表达。然而,如图1所示,这些方法大多仍基于模仿学习(IL)进行训练。由于每个驾驶场景仅提供一条真实轨迹(GT),模型学习到的多模态输出往往会向单一主导模式收敛——尽管名义上具备多样性,但最终预测结果高度相似。这种现象被称为模式崩溃。为缓解模式崩溃问题,近期研究探索将生成式建模用于轨迹规划。生成式方法(流匹配和扩散模型)旨在表征可行未来轨迹的完整分布,通过迭代采样自然实现多样化的轨迹假设。尽管生成式方法提升了多模态轨迹预测性能,但采样过程中固有的随机性和高方差,给保证生成轨迹满足严格安全约束带来了根本性挑战。当前方法极少探索在生成过程中融入显式的风格引导和安全引导以确保约束满足,这给系统的可靠部署带来了难题。
为解决上述问题,本文提出GuideFlow框架——一种基于流匹配架构、生成过程受显式监督的规划模型。GuideFlow从随机采样出发,通过多样化的条件信号引导生成过程,从而缓解模式崩溃问题。其核心创新在于将安全约束直接嵌入生成过程的策略:(1)速度场约束(CVF):采用预定义的、满足约束的速度场,主动修正模型预测的速度场,引导结果满足约束;(2)流状态约束(CF):对偏离约束的流路径进行修正,使流路径朝向满足约束的生成终点演进;(3)EBM流优化(RFE):通过统一流匹配架构与能量基模型(EBM),赋予模型在数据流形内自主探索的能力,使其能够“发现”满足约束的结果。本文的贡献如下:
- 提出一种基于流匹配的多模态轨迹规划器GuideFlow,有效缓解模式崩溃问题。其核心创新在于在流匹配过程中施加显式硬约束,并结合EBM提升轨迹的可行性;
- GuideFlow将环境奖励作为条件信号,在推理阶段支持激进驾驶与保守驾驶风格的灵活切换;
- 在自动驾驶数据集(NuScenes、ADV-NuScenes、NavSim和Bench2Drive)上的大量实验验证了其优异性能。值得注意的是,在NavSim测试集的高难度子集(Navhard)上,GuideFlow取得当前最优结果,EPDMS分数达43.0。
二、预备知识

三、GuideFlow算法详解


感知条件流生成器

Classifier-free Intent与奖励引导

约束生成



奖励作为风格条件
为在推理阶段动态调整轨迹激进度,本文基于NavSim数据集引入激进度评分(EP)——定义为单位时间内沿车道中心线行驶的距离,取值范围为[0,1]。该评分针对每条真实轨迹(GT)在线计算,并作为条件输入融入模型。通过调节EP值,可直接控制生成轨迹的激进度:实际中,当推理阶段将EP设置为接近1时,模型会生成更具激进性的驾驶行为。
实验结果分析
实验设置
数据集与评价指标:

主要结果
闭环结果:如表1所示,在NavSim数据集的Navhard高难度子集上:
- 未使用评分器(No Scorer)时,GuideFlow的EPDMS得分为27.1,在多数指标上优于无评分器的基线模型(如LTF、GTRS-DP),体现了其在无辅助评分情况下的稳健规划能力。
- 集成评分器(Scorer)后,GuideFlow创下当前最优(SOTA)性能,Navhard子集的EPDMS得分达43.0,较此前最佳结果提升1.3分。

如表2所示,在Bench2Drive数据集上:
- GuideFlow的驾驶分数(DS)达75.21,成功率(SR)达51.36%,优于多数端到端自动驾驶基线模型。相比基于专家知识蒸馏的方法(如ThinkTwice、DriveAdapter)及Hydra-Next基线模型,GuideFlow在闭环稳健性和决策稳定性上展现出显著优势。

Bench2Drive和NavSim数据集上的性能提升,证实了将约束机制融入生成过程的有效性——该设计可直接转化为规划与驾驶关键指标的提升。这些跨数据集的一致性能增益,源于GuideFlow将安全约束直接嵌入轨迹生成过程的核心能力,进而系统性地改善了EPDMS等关键规划与驾驶指标。
开环结果:在开环数据集(NuScenes、ADV-NuScenes)上,由于传统L2距离无法合理评估非模仿类方法,研究仅以碰撞率作为评价指标。如表3所示:
- GuideFlow在所有预测时域下均实现最低碰撞率,在正常与对抗性场景中均表现出持续的安全性能。在NuScenes数据集上,其平均碰撞率为0.07%;在ADV-NuScenes数据集上,平均碰撞率为0.73%。
- 与SparseDrive相比,GuideFlow在NuScenes和ADV-NuScenes上的碰撞率分别降低0.08%和1.02%,且在NuScenes上显著优于UniAD和VAD。
- 值得注意的是,GuideFlow在1秒预测时域内几乎无碰撞(碰撞率0.00%),2秒预测时域内碰撞率仅为0.02%,体现了其在短时域预测中的高可靠性。
这些安全性能的提升,直接源于GuideFlow将安全约束融入生成过程的能力——生成的轨迹本质上具备碰撞感知能力,且在不同场景中均表现稳健。

消融实验
不同动态条件的影响:研究针对不同动态条件信号开展消融实验,结果如表4所示。与基线模型相比,所有模型变体均实现性能提升,验证了“无分类器意图与奖励引导”方法的有效性。其中,基于规划锚点(Plan Anchor, PA)引导的模型变体表现最优:EPDMS得分为29.0,驾驶分数达75.21,优于采用简单驾驶指令(Driving Command, CM)或目标点(Goal Point, GP)引导的变体。这一优势源于规划锚点能够封装更丰富的决策信息,同时解决“行驶目标(where to drive)”与“行驶方式(how to drive)”两大核心问题。消融实验结果表明:在“无分类器意图与奖励引导”框架下,尽管每种引导信号均能提升模型整体性能,但设计更具信息性和有效性的引导信号,仍是大幅提升模型生成能力的关键。

约束生成模块的影响:研究探究了三种约束生成方法对模型性能的影响,结果如表5所示。单独使用任意一种约束模块均能提升模型性能,充分证明了GuideFlow中“约束生成”设计的有效性。具体来看:
- 流状态约束(CF)模块的性能增益更为显著(EPDMS提升1.6分,成功率提升0.45%),优于速度场约束(CVF)模块。二者的核心差异在于:CVF在每一步生成过程中均进行修正,可能干扰概率路径的平滑性并降低生成质量;而CF仅在生成过程中进行一次修正,这种“单次干预”既能最小化对概率路径的干扰,又能确保约束满足,同时为模型预留充足时间以根据场景调整轨迹。
- EBM流优化(RFE)模块对EPDMS的提升最为显著,尤其在域外(OOD)场景评分(第二阶段EPDMS)中表现突出。这一结果凸显了RFE的核心作用:感知约束规则并引导模型修正结果。由于约束规则具有本质上的泛化性,且RFE模块能有效感知这些规则,GuideFlow在域外场景中实现了最优性能。
- CF与RFE模块组合使用时,模型性能达到最佳:EPDMS得分为27.1,驾驶分数达75.21,成功率达51.36%。这表明约束生成中的三种方法并非相互对立,而是具有互补性——CVF与CF负责在生成过程中执行约束,RFE则确保生成结果进一步优化以符合约束规则。更多消融实验细节详见附录。
奖励作为风格条件(RAS)的影响:本消融实验旨在探究RAS模块对模型性能的影响。实验中,将激进度评分(EP)设置为1,以专门鼓励生成更激进的轨迹。结果显示:
- 当模型集成RAS模块时,EP评分从79.6显著提升至82.3,证实了通过奖励条件调节轨迹激进度的可行性。
- 但与此同时,EPDMS评分下降0.8分。这表明:无差别鼓励激进轨迹会损害安全约束,进而导致性能下降。


定性结果
如图4所示,在多种驾驶场景下的视觉对比表明,本文提出的GuideFlow方法相比DiffusionDrive具有显著优势:GuideFlow能生成满足约束的轨迹,在大幅降低碰撞风险的同时,严格遵守车道行驶规则。具体而言:
- 在图4(c)和(d)的避障场景中,与DiffusionDrive相比,GuideFlow生成的轨迹能明确响应周围车辆,执行避撞操作;
- 在图4(b)的刹车场景中,GuideFlow能维持静止状态,避免与前方车辆发生潜在碰撞;
- 在转弯、变道等更复杂的驾驶任务中,GuideFlow同样表现更优。

结论
本文提出了一种基于流匹配的规划框架GuideFlow。该方法的核心在于:通过融入驾驶指令、目标点、规划锚点等多种条件信号,引导生成过程向场景感知型行为演进;此外,本文创新性地提出三种策略,在生成过程中执行显式约束。
在NavSim、NuScenes、Bench2Drive等数据集上的大量实验证实了GuideFlow的有效性。尤其在具有挑战性的域外场景中,GuideFlow展现出卓越的稳健性。尽管GuideFlow性能优异,但加速采样会导致其性能下降。未来的研究方向将是整合重流(reflow)与均值流(meanflow),以提升模型的采样速度。

发表回复