原文链接:https://mp.weixin.qq.com/s/rS4s1hHIvUfG77TkeTjAwg
预测行驶中的交通参与者的轨迹运动,对于确保自动驾驶系统的安全性而言,既是一项重大挑战,也是一项至关重要的需求。与大多数现有的、直接预测未来轨迹的数据驱动方法不同,我们从规划(planning)的视角重新思考这一任务,提出一种“先推理,后预测(First Reasoning, Then Forecasting)”的策略,该策略显式地将行为意图作为轨迹预测的空间引导。为实现这一目标,进一步引入了一种可解释的、基于奖励的意图推理器(intention reasoner),其建立在一种新颖的以查询为中心的逆强化学习(query-centric Inverse Reinforcement Learning, IRL)框架之上。我们的方法首先将交通参与者和场景元素编码为统一的向量化表示,然后通过以查询为中心的范式聚合上下文特征。进而推导出一个奖励分布(reward distribution)——一种紧凑但信息丰富的表示,用于刻画目标参与者在给定场景上下文中的行为。在该奖励启发式(reward heuristic)的引导下,我们进行策略 rollout,以推理多种可能的意图,从而为后续的轨迹生成提供有价值的先验信息。最后开发了一种集成双向选择性状态空间模型(bidirectional selective state space models)的分层DETR-like解码器,以生成精确的未来轨迹及其对应的概率。在大规模的Argoverse和nuScenes运动预测数据集上进行的大量实验表明,我们的方法显著提升了轨迹预测的置信度,在性能上达到了与当前最先进方法相当甚至更优的水平。
- 论文链接:https://arxiv.org/abs/2507.12083
简介
轨迹预测是自动驾驶系统的关键组成部分,它连接了上游的感知模块和下游的规划模块。准确预测周围交通参与者未来的运动,需要对未知的意图进行推理,因为驾驶行为本质上具有不确定性和多模态特性。
大多数现有的数据驱动运动预测模型采用模仿学习(imitative)方法,要么直接回归轨迹,要么基于训练数据集中的数据分布对终点进行分类。然而,这些方法通常对驾驶行为的考虑不足,限制了其可解释性和可靠性。尽管许多方法在基准测试指标上表现出色,但很少有方法能显式地对未来的意图进行推理,这在现实应用中生成可解释且鲁棒的多模态预测时,形成了一个关键瓶颈。
相比之下,人类驾驶员通常以分层的方式操控车辆,先做出高层次决策(例如变道或超车),再执行具体的运动策略。我们可以将自车(ego vehicle)的预测模块视为在为其他参与者进行规划,前提是假设道路使用者的行为是理性的。尽管轨迹预测与规划之间存在内在联系,但很少有研究探索来自规划领域的洞见。受这些观察的启发,我们提出了一个关键问题:能否从规划的视角来处理轨迹预测任务,并通过引入意图推理能力来加以增强?
为此,我们提出一种“先推理,后预测(First Reasoning, Then Forecasting)”的策略,其中行为意图推理为准确且可信的多模态运动预测提供了关键的先验指导。以超车场景为例:一个能够提前显式推理出“超车”和“保持车道”两种意图的模型,相比没有进行推理而直接预测的模型,能够生成更可靠的预测结果,如图1所示。

此外,结合更长期的意图推理可以进一步提升预测的置信度(见表2)。
然而,由于驾驶场景固有的复杂性,仅依赖手工设计的规则或预定义的规划器来进行未来意图推理仍然具有挑战性。一种有前景的替代方案是利用大型推理模型(Large Reasoning Models, LRMs)(如OpenAI-o1)在轨迹预测器中实现意图推理。然而,它们巨大的计算需求使其在车载驾驶系统中不切实际。幸运的是,LRMs的最新进展表明,强化学习(RL)技术在数学和编程等领域展现了卓越的推理能力,这引发了一个有趣的问题:能否利用基于RL的范式来推理轨迹预测中参与者的未来意图?
在这方面,我们探索了将RL范式应用于建模自动驾驶场景中参与者行为推理的可行性。我们将任务形式化为一个马尔可夫决策过程(Markov Decision Process, MDP),并据此定义目标参与者的行为意图。为了在性能和计算效率之间取得平衡,我们构建了一个网格级图(grid-level graph)来表示场景布局,其中意图被定义为在离散网格世界中的一系列决策,类似于传统RL语境中的“规划”。本文将这种意图序列称为基于网格的推理遍历(Grid-based Reasoning Traversal, GRT)。
然而,将RL应用于轨迹预测的一个根本性挑战在于如何建模奖励(reward),因为参与者的意图是未知的。
为克服这一挑战,我们提出了一种基于最大熵逆强化学习(Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL)的奖励驱动意图推理器。该框架首先通过IRL,从专家示范(demonstrations)和相关驾驶上下文中学习参与者特定的奖励分布。所学习到的奖励作为一种紧凑的表示,捕捉了参与者的可观测行为及其潜在意图。利用这些推断出的奖励作为启发式信息,我们随后进行策略rollout,以采样多种可能的GRT,并提取其对应的、以意图为指导的特征,从而为轨迹预测提供先验指导,进而提高预测的准确性和置信度。
此外,为了进一步增强从场景上下文中提取特征的能力,提出了一种新颖的以查询为中心的IRL框架(Query-centric IRL, QIRL),该框架将IRL与一种基于查询的编码机制相结合。QIRL能够高效且灵活地将向量化场景上下文特征聚合到类似空间网格的token中,便于进行结构化推理。
通过这种密集的网格表示,我们在模型中增加了一个辅助的占用网格图(Occupancy Grid Map, OGM)预测头,该模块能够对场景中每个参与者未来的时空占用进行密集预测。这一辅助任务通过捕捉参与者之间的未来交互,有效增强了特征融合过程,从而提升了整体预测性能(见表7)。
最后为了充分利用意图推理器提供的特征,开发了一种分层的DETR-like轨迹解码器。一个无锚点(anchor-free)的轨迹token首先基于GRT推导出的特征生成初始提议(proposals),这些提议随后作为最终轨迹解码的初始化锚点。考虑到轨迹状态固有的序列性质,以及选择性状态空间模型(Mamba)在长时程、结构化动态建模方面的最新进展,引入了一种双向变体——Bi-Mamba,以有效捕捉轨迹状态的序列依赖关系。这一增强显著提升了预测的准确性和置信度(见表6)。
总结来说,本文的主要贡献如下:
- 提出了一种“先推理,后预测”的策略,从规划的视角重新思考轨迹预测任务。
- 为运动预测提出了一种全新的奖励驱动意图推理器,其中QIRL模块在以查询为中心的框架下,集成了MaxEnt IRL范式和向量化上下文表示。
- 开发了一种集成双向选择性状态空间模型(Bi-Mamba)的分层DETR-like解码器,以提高预测的准确性和置信度。
- 的方法显著提升了预测置信度,并在Argoverse和nuScenes运动预测基准测试上取得了极具竞争力的性能,超越了其他最先进的模型。
相关工作回顾
自动驾驶轨迹预测
自动驾驶的轨迹预测已研究数十年。该领域的早期工作主要依赖于手工设计的基于规则或基于物理的方法,这些方法难以处理复杂场景,且缺乏进行长期预测的能力。近年来,研究方法已转向基于学习的框架,该框架利用深度神经网络来编码交通参与者的运动历史,同时整合高精地图(HD maps)的拓扑和语义信息。这些地图通常以光栅化(rasterized)或向量化(vectorized)格式表示。光栅化表示通常使用鸟瞰图(Bird’s-Eye-View, BEV)图像作为输入,而向量化表示则依赖于参与者和地图的折线(polylines)作为输入。卷积神经网络(CNNs)和图神经网络(GNNs)被广泛用作这些格式的特征提取器,在编码场景上下文方面发挥着关键作用。最近,基于Transformer的架构因其能够提升整体预测性能而受到广泛关注。顺应这一趋势,我们的工作采用了向量化表示,并利用基于查询的Transformer编码器-解码器结构来进行特征聚合和轨迹生成。
尽管取得了这些进展,但在使轨迹预测对分布外(out-of-distribution)场景具有鲁棒性,以及对未见过的环境具有可泛化性方面,挑战依然存在。我们的工作通过从规划的视角重新思考轨迹预测任务,引入了一种基于奖励的意图推理器,以提供行为指导和上下文丰富的先验信息,从而推进轨迹预测,来解决这些不足。
奖励(Reward)
奖励是规划(planning)和强化学习(RL)中的一个基础概念,它作为一种引导信号,塑造了智能体的行为和决策过程。在规划中,奖励通常被设计为与高层目标对齐,例如在避开障碍物的同时到达目标点。通常,奖励函数是手工设计的,或通过分层框架进行塑造,其中高层规划器为低层控制器提供策略指导。关于奖励塑造(reward shaping)的研究表明,通过修改奖励结构来强调特定行为或里程碑,可以加速学习过程并提高策略的鲁棒性。
在强化学习(RL)中,奖励函数扮演着核心角色,它定义了智能体的目标,并引导其执行能够随时间最大化累积奖励的动作。奖励函数的设计在规划和RL中都至关重要;然而,为复杂任务(如自动驾驶)设计有效的奖励函数极具挑战性。为了解决这一挑战,逆强化学习(Inverse RL, IRL)被提出。IRL专注于从观察到的专家示范(expert demonstrations)中推断出奖励函数,这在直接定义奖励函数不可行的场景中尤其有价值。例如,最大熵逆强化学习(MaxEnt IRL)已被广泛应用于学习能够捕捉专家行为潜在意图的奖励函数,从而使智能体能够在规划任务中复制细致入微、类似人类的决策。
尽管IRL非常有用,但现有的高效IRL算法通常针对结构化和网格状环境进行定制,这限制了它们在更复杂领域中的灵活性。为了克服这一局限性,我们提出了一种新颖的以查询为中心的框架(query-centric framework),该框架增强了MaxEnt IRL在我们基于奖励的意图推理器中的适用性和灵活性。通过利用这一范式,我们的方法提供了有价值的奖励启发式信息,能够有效推理未来行为的意图,为解决运动预测任务固有的复杂性提供了信息丰富的先验。
算法详解
问题定义

框架概述
如图2所示,我们的运动预测方法采用了一种编码器-解码器结构,该结构包含一个以查询为中心的场景上下文编码器、一个由Mamba增强的分层轨迹解码器,以及一个奖励驱动的意图推理器。

首先以向量化格式表示驾驶上下文,并利用参与者和地图编码器提取场景特征。然后,通过交叉注意力机制将这些融合后的特征聚合到空间网格token中。接着,在QIRL模块中,利用一种基于网格的MaxEnt IRL算法推断奖励分布,从而通过策略rollout在2D网格地图上推理出多种可能的意图序列(即GRTs)。此外,我们引入了一个用于时空占用网格图(S-T OGM)的密集预测头,以建模参与者之间的未来交互。最后,我们引入了一种分层的DETR-like轨迹解码器,该解码器生成轨迹提议,这些提议经过进一步的聚类和优化,最终生成由Bi-Mamba架构增强的多模态未来轨迹。
以查询为中心的上下文编码

奖励驱动的意图推理

Mamba增强的轨迹解码



训练目标

实验结果分析
数据集(Datasets:Argoverse 1、Argoverse 2和nuScenes。
与SOTA对比
我们在Argoverse 1、Argoverse 2和nuScenes运动预测数据集上,对我们的方法与最先进的方法进行了全面的比较。为简洁起见,我们将我们的方法简称为FiM(Foresight in Motion)。
Argoverse 1。表1展示了在Argoverse 1测试集上的定量结果。我们将我们的FiM与在此具有挑战性的基准上评估的几个代表性已发表方法进行了比较。根据单模型结果(上半部分),FiM相较于强大的基线方法(包括直接轨迹预测模型如HiVT和SceneTransformer,以及基于目标的模型如DSP和DenseTNT)都取得了极具竞争力的性能。FiM在Brier分数、brier-minFDE6和MR6方面表现尤为出色,突显了其强大的预测能力。

我们还应用了模型集成技术来进一步提升整体性能。集成结果(下半部分)显示出显著的性能提升,表明了我们所提出框架的巨大潜力和上限能力。与HPNet和Wayformer等其他领先的已发表方法相比,FiM在各项评估指标上均保持了有竞争力的性能,尤其是在Brier分数上表现突出。这一结果强调了我们通过推理增强的预测器能够有效地生成更可靠、更自信的预测。
Argoverse 2。为了进一步验证我们意图推理策略的有效性,我们基于Argoverse 2的验证集构建了一个定制的评估基准。具体来说,任务要求预测前30个未来位置,而在训练期间,模型可以将后续的30个位置专门用作辅助的意图监督信号。值得注意的是,所有模型在训练轨迹生成时,其监督信号都严格限定在前30个未来位置。这种设置模拟了实际应用中长期路径可用于意图学习的场景。鉴于我们提出的QIRL模块对监督格式(无论是轨迹还是路径)是无感的,我们开发了三个模型变体,它们在GRT训练中引入了不同时间范围的未来监督。这些变体分别记为GRT-S、GRT-M和GRT-L,对应的推理模块分别使用30、45和60个未来时间戳进行训练。
我们将我们的FiM与Argoverse 2排行榜上表现最好的两个开源模型DeMo和QCNet进行了比较。如表2所示,所有FiM变体都超越了这两个强大的基线模型,证明了意图推理模块带来的显著增益。此外,结果进一步表明,更长期的意图监督能显著增强预测置信度,从而促进更可靠的轨迹预测。

nuScenes。我们还在nuScenes数据集上评估了FiM,结果如表3所示。我们的模型在此预测基准上表现出顶级性能,超越了排行榜上所有当前的条目,进一步验证了我们所提出框架在应对复杂运动预测挑战方面的鲁棒性和先进能力。
消融实验
我们在Argoverse验证集上进行了深入的消融研究,以评估我们方法中关键组件的有效性,所有实验设置保持一致以确保公平比较。
奖励启发式的效果(Effects of Reward Heuristics)。我们首先通过从流程中移除推理分支来检验奖励驱动意图推理器的有效性。如表4所示,与我们的完整模型相比,基础架构(Vanilla)的性能显著下降,这突显了推理过程对整体性能的关键贡献。此外,我们通过用交叉注意力块替换QIRL模块来探究其特定影响。表4的结果显示,我们的QIRL模块远优于这种替代方案,证明了QIRL能够有效收集关键的意图先验,并为后续的运动预测提供有益的指导。

OGM与优化模块的效果(Effects of the OGM & Refinement)。我们进一步通过分别消融辅助的时空占用网格图(S-T OGM)模块和优化模块来评估其影响,如表5所示。这两个模块都对最终性能做出了显著贡献。特别是,OGM带来的性能提升证实了建模未来交互能够增强预测质量,突显了意图推理对于改进轨迹预测的重要性。

Mamba解码器组件的效果(Effects of Components in Mamba-Based Decoder)。我们对各种解码器组件进行了消融分析,以检验Mamba-like结构相对于传统方法的优势。此分析有助于确定该设计是否为轨迹解码带来了有意义的特征提取增强,还是构成了过度设计。表6的结果突显了这一设计的优势。与使用MLP作为回归和分类头相比,Bi-Mamba架构和不同模态间的自注意力机制都显著提升了预测性能和置信度。此外,我们研究了为分类提出的双模态token的效果,并将其与一个使用单个模态token来聚合轨迹查询特征的单向Mamba模型进行比较。如表7所示,Bi-Mamba模型表现更优,得益于其前向-后向扫描机制,该机制能有效地将轨迹特征融合到两个分类(CLS)token中,验证了该设计的好处。我们还考察了不同Mamba层数深度的影响,如表8所示。结果表明,更深的层数可能会引入不必要的计算开销,并且由于过拟合也可能导致性能下降,这凸显了选择最优层数配置以实现强大性能的重要性。
定性结果
我们在Argoverse验证集的多种交通场景中展示了我们所提出方法的可视化结果,如图4所示。这些定性结果强调了我们的模型在各种条件下(包括复杂路口和长距离预测场景)生成准确、可行且多模态的未来轨迹的强大能力,这些轨迹与场景布局保持了良好的对齐。

结论
在本研究中,我们从规划的视角重新构想了轨迹预测任务,并提出了一种“先推理,后预测”的策略。我们提出了一种新颖且可解释的奖励驱动意图推理器,该推理器设计于一个以查询为中心的逆强化学习(QIRL)框架之内。该框架通过以查询为中心的流程,将最大熵逆强化学习(MaxEnt IRL)范式与向量化上下文表示相结合,从而为后续的轨迹生成有效地提供了信息丰富的意图先验。
此外,我们引入了一种集成了双向选择性状态空间模型(Bi-Mamba)的分层DETR-like轨迹解码器。该解码器能够捕捉轨迹状态的序列依赖关系,显著提升了预测的准确性和置信度。实验结果表明,我们的推理增强型预测器具备强大的能力,能够生成与场景布局高度吻合的、自信且可靠的未来轨迹,并在性能上达到了与现有最先进模型相当甚至更优的水平。此外,我们的工作强调了意图推理在运动预测中的关键作用,证实了强化学习(RL)范式在建模驾驶行为方面的可行性,并为未来在轨迹预测领域的研究建立了一个极具前景的基线模型。

发表回复