2025-10-16扩散规划器全新升级！清华Flow Planner：基于流匹配模型的博弈增强算法（NeurIPS’25）

原文链接：https://mp.weixin.qq.com/s/aVrrXd3zTbzQmA2h8-jeLw

本文介绍了清华大学AIR研究院联合中科院自动化所、香港中文大学等单位在NeurIPS 2025发表的最新研究成果——Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling。该工作基于Diffusion Planner进一步改进，提出了全新的自动驾驶决策算法框架—Flow Planner。在高密度车流中的多车博弈、行人突发横穿、狭窄道路的会车与让行，以及插入与并线等激烈竞争场景下，Flow Planner能够像经验丰富的驾驶员一样，动态感知周围意图变化，精准预测潜在风险，并生成自然、流畅、类人的规划轨迹。实验结果显示，Flow Planner在nuPlan闭环评测及新设立的interPlan高交互基准上均取得了学习型算法的SOTA性能。在高密度交通、频繁交互和非结构化场景下，其决策成功率和轨迹质量均显著超越现有扩散模型规划方法，展现了该框架在闭环规划领域的巨大潜力。

论文标题：Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling
论文链接：https://arxiv.org/abs/2510.11083
项目主页：https://github.com/DiffusionAD/Flow-Planner

背景介绍

自动驾驶规划的核心挑战之一在于：如何在多车密集、行为多样的交通场景中，实现安全、可靠、类人的决策。传统基于规则的规划方法依赖人工定义的行为准则，虽然可解释性强，但在动态、复杂的交通博弈中缺乏泛化能力；而基于学习的规划方法试图直接从海量驾驶数据中学习策略，提升模型的适应性与可扩展性。然而，当前学习型规划方法仍面临两大核心挑战：

博弈行为建模不足——简单地增大模型参数量难以有效捕捉场景中的博弈关系，反而容易导致模型过拟合，出现呆板的驾驶行为。为了有效建模博弈行为而引入的过多人工结构设计，又会显著增大模型复杂度，不利于模型的扩展；
高质量博弈数据稀缺——高密度、强博弈的场景在训练数据中呈现显著的长尾分布，模型难以通过模仿学习在相对有限的训练数据中准确捕捉专家策略的驾驶意图，从而在实际测试中难以做出准确、迅速的决策。

本文希望解决的核心问题是：能否在不引入额外先验知识的情况下，通过模型自身的学习能力，从有限的数据中提升博弈能力？ 自动驾驶决策任务通常被建模为一个轨迹生成任务，因此，要想生成高质量的轨迹，需要更加灵活的轨迹建模策略。同时，博弈场景涉及自车与周围环境的复杂时空交互关系。例如，当车辆需要在密集车流中变道时，模型必须同时关注当前车道及目标车道中前后方车辆的行为。这要求模型具备高效且自适应的特征整合与处理能力，能够快速识别并聚焦关键交通参与者的动作与意图。最后，为了能够在与周围交通参与者的博弈过程中作出准确的反应，模型在轨迹生成阶段需要充分考虑周围交通参与者的行为对自车当前和未来状态的影响。

基于此，本文提出了Flow Planner框架。它利用Flow Matching生成式模型强大而高效的多模态数据建模能力，从轨迹表征、模型架构到生成机制三方面协同改进，全面提升规划模型在复杂博弈场景下的理解与反应能力。接下来，我们将分别就这三点关键创新展开介绍。

技术细节

细粒度轨迹分段表示（Fine-grained Trajectory Tokenization）

传统方法往往用一个整体token表示完整轨迹，导致时序信息被过度压缩；Flow Planner将轨迹划分为多个重叠的片段，并为每个片段建立局部token表示，使模型能够：

保持运动学连续性；
精确捕捉不同时间段的交互模式；
提升多模态驾驶行为的可表达性。

这种局部建模+全局拼接的策略兼顾了表达力与平滑性，有效改善了规划轨迹的连贯性与多样性；配合下游的交互时空增强融合机制能够更加全面高效地捕捉到场景中的关键信息，提升规划模型对场景的理解能力。

博弈增强时空融合机制（Interaction-Enhanced Spatiotemporal Fusion）

自动驾驶场景中的博弈通常涉及到自车与多个不同的交通参与者在不同的时空位置进行交互。基于此，Flow Planner设计了基于尺度自适应注意力的特征融合模块，该模块：

在统一的特征空间中同时处理车道、自车与周车轨迹信息；
基于具体场景动态调整每个token的感受野大小，使模型能自动聚焦于关键交互对象；
通过独立的Adaptive LayerNorm与FFN模块，优化异构信息融合，避免不同模态特征互相干扰。

这使得模型能够同步融合处理自车轨迹特征、道路信息和周车、行人信息等异构特征，在保留各模态原有特征结构的同时，实现未来轨迹时序信息与周围环境空间信息的高效融合；帮助模型在复杂交通场景中高效捕捉空间交互依赖与时序一致性，实现类人化的博弈场景理解。

基于无分类器引导（Classifier-free Guidance）的周车增强轨迹生成

流匹配生成式模型的无分类器引导（Classifier-free Guidance）生成策略能够在推理时（inference-time）灵活地对模型采样的分布进行调整。利用这一机制，Flow Planner能够通过调整周车信息、道路信息等生成条件在模型采样的分布中的权重，放大其对轨迹规划与生成的影响，引导模型生成超越数据的驾驶行为与策略。同时，推理时可调的权重能够帮助模型平衡保守与激进的策略，在交互密集场景中生成更加自然、可控的驾驶行为，提升多模态驾驶行为生成能力。

实验结果

nuPlan 闭环仿真结果

Flow Planner在大规模真实世界规划基准 nuPlan 上实现了学习型方法的SOTA性能，在Val14基准上首次突破90分大关，且不依赖任何规则先验或后处理模块;在引入同样的基于规则的后处理模块后，Flow Planner的表现与最优的混合式方法相当甚至更优。

interPlan 高交互基准结果

在全新提出的interPlan高交互场景测试集中，Flow Planner在多种复杂情境下均显著优于Diffusion Planner及其他基线方法，整体性能提升8.9分；在“高密度交通”“行人横穿”等极端交互情境下展现出卓越的反应策略，并在部分分布外（Out-of-distribution）场景中展现出出色的泛化能力。