原文链接:https://mp.weixin.qq.com/s/u3mFKO-K1u1okPZlRx13lA

- 论文链接:https://www.arxiv.org/abs/2509.10570
- 作者单位:西交利物浦大学,澳门大学,利物浦大学,香港科技大学(广州)
摘要与引言
这篇综述探讨了将大语言模型(LLMs)和多模态大语言模型(MLLMs)等大型基础模型应用于自动驾驶轨迹预测的新范式 。这种方法通过整合语言和情境知识,使自动驾驶系统能更深入地理解复杂的交通场景,从而提升安全性和效率。文章回顾了从传统方法到由LFM引入的范式转变,涵盖了车辆和行人的预测任务、常用的评估指标和相关数据集 。它详细介绍了LLM的三种关键应用方法:轨迹-语言映射、多模态融合和基于约束的推理,这些方法显著提高了预测的可解释性和在长尾场景中的鲁棒性 。尽管LLM有诸多优势,但也面临计算延迟、数据稀缺和真实世界鲁棒性等挑战 。

图1展示了自动驾驶中“感知-预测-规划与控制”的闭环过程,突出了LFM如何帮助自动驾驶车辆预测其他交通参与者的轨迹 。

图2则以时间线形式展示了轨迹预测方法的演变,从基于物理模型、机器学习、深度学习到最新的LFM方法 。
轨迹预测概述
轨迹预测是自动驾驶的核心技术,它利用历史数据(如位置和速度)以及上下文信息(如地图和交通规则)来推断交通参与者(包括车辆和行人)未来的运动路径 。
针对车辆轨迹预测,传统方法主要包括基于物理学的方法(如卡尔曼滤波器和蒙特卡罗方法)和基于机器学习的方法(如高斯过程和隐马尔可夫模型),这些方法虽然计算高效,但难以处理复杂的交互场景和实现泛化 。深度学习方法通过端到端架构自动提取时空特征,显著提升了长期预测的准确性,并能有效地建模交互、融合多层特征并生成多模态概率输出,尽管如此,它们仍面临计算需求高、可解释性差以及对大规模标注数据的过度依赖等挑战 。
而强化学习方法通过学习奖励函数来生成轨迹,在交互场景建模、长期预测和环境适应性方面表现出色,但其训练过程复杂且不稳定,高度依赖高保真数据,并且存在可解释性有限的“黑盒”问题 。对于行人轨迹预测,这是一项在人车混合环境中提高操作安全性的基础挑战 。
基于物理学的方法(如社会力模型)采用显式规则来模拟行人动态,虽然具有高可解释性和计算效率,但其人工设计的规则难以适应复杂的社会行为,且确定性输出无法捕捉轨迹的不确定性 。
数据驱动方法克服了这些局限性,通过学习隐式交互模式(如使用生成模型和图神经网络)来生成多模态轨迹,但这些模型同样存在决策过程不透明、数据依赖性高以及长期预测可能违反运动学可行性等问题 。最后,混合方法则结合了物理学先验知识和数据驱动学习,通过专家-数据融合或物理引导学习来增强预测的鲁棒性 。
基于LLM的车辆轨迹预测

图三展示了以LFM为中心的轨迹预测的体系结构概述
LFMs的兴起为轨迹预测带来了范式层面的变革,其核心在于将连续的运动状态离散化为符号序列,并利用语言模型强大的语义建模与推理能力,实现从“信号级预测”到“语义级推理”的跃升。如图三所示,以LFM为核心的预测框架通常包含多模态对齐、嵌入融合与约束推理三个关键环节。
在感知与场景理解层面,视觉-语言模型(VLMs)通过将图像、点云等感知数据与文本描述进行联合嵌入,实现开放词汇检测和长尾物体识别。例如,DriveVLM通过语言描述增强对“道路施工标志”“异型车辆”等稀缺目标的辨识能力,并将检测结果转化为自然语言描述,如“前方车辆打左转向灯”,为后续推理提供语义基础。BLIP-2、LLaVA等通用MLLM框架也被广泛应用于驾驶场景描述生成,能够输出如“行人正在斑马线等候,左侧有公交车遮挡”等富含语义的场景摘要,显著提升系统的环境认知深度。
轨迹-语言映射是实现LLM理解运动行为的关键步骤。一方面,通过提示工程(Prompt Engineering)将轨迹数据与场景要素编码为结构化文本,如“自车速度:12m/s,前车距离:20m,意图:左转”,使LLM能够基于自然语言进行轨迹推理。另一方面,轨迹离散化技术如VQ-VAE将连续轨迹映射为离散符号序列,Bezier曲线编码则用于压缩车道几何信息,从而构建与LLM词汇表兼容的运动表示。STG-LLM进一步将时空图结构中的节点与边关系转化为token序列,使LLM能够显式建模多智能体之间的交互动力学。
多模态融合架构旨在实现视觉、语言与轨迹信息的统一表示。典型做法是设计共享的场景编码器(如BEV编码器),将图像、LiDAR点云和地图信息映射为统一的token序列,再与语言指令进行交叉注意力融合。DiMA和DrivingGPT等框架通过跨模态 Transformer 实现多源信息的深度融合,支持基于语义指令的条件轨迹生成。此外,一些方法将预测任务重构为视觉问答(VQA)问题,如“基于当前BEV图像,生成左转轨迹”,充分利用预训练MLLM的零样本推理能力。
基于推理的预测框架充分利用LLM的常识知识与人式推理能力,通过链式思维(CoT)提示、规则注入等方式,使轨迹生成过程更加透明且符合交通规范。例如,CoT-Drive将预测分解为场景解析、交互分析、风险评估和轨迹生成四个步骤,并输出相应的语义解释,如“由于行人正在通过,建议减速让行”。语言约束也被用于嵌入交通规则,如“在无保护左转中必须确认对向车辆通行情况”,有效减少训练数据与真实场景之间的分布差异。这类方法不仅在碰撞率、minADE等指标上显著优于传统模型,更在可解释性与人机互信方面展现出独特价值。

表1展示的是对2023年到2025年用LLM做轨迹预测的开源模型的总结
实验基准和评估指标
文章总结了用于评估基于LLM的轨迹预测方法的各种数据集和评估指标 。
数据集:文章将现有数据集分为两大类:行人预测数据集(如ETH/UCY)和车辆轨迹预测数据集(如Waymo、nuScenes和Argoverse)。行人预测领域广泛使用ETH/UCY数据集,包含酒店、校园等场景中的密集行人轨迹,适用于社会行为建模研究;JAAD等数据集则提供丰富的行人动作标注,支持意图感知的预测任务。车辆轨迹预测方面,Waymo Open Motion Dataset(WOMD)以其规模大、场景多样、交互复杂成为主流基准;nuScenes和Argoverse则提供多传感器数据与高精地图,支持多模态感知-预测联合评估。新兴数据集如nuPlan专注于闭环规划与预测的协同评估,InterACTION强调复杂交互场景,推动了预测技术向真实应用场景的靠拢。

图四展示了现有用于轨迹预测的数据集
指标:对于车辆,评估指标包括L2距离(衡量预测终点与真实终点间的欧氏距离)和碰撞率。对于行人,主要指标为minADE和minFDE,通常计算K=20个预测值中的最佳结果。实验分析表明,基于LLM的方法在降低碰撞率和提高长期预测准确性方面表现出卓越的性能。

表2展示的是在NuScenes数据集上车辆轨迹预测模型的性能比较

表3展示的是在ETH-UCY 数据集上行人轨迹预测模型的性能比较
讨论与结论
LFMs在轨迹预测中的广泛应用,标志着该领域正从局部模式匹配向全局语义理解转变。其核心优势可归纳为三个方面:第一,语义推理能力使模型能够融入交通规则、社会惯例等先验知识,生成不仅准确且合规的轨迹,提升系统安全性;第二,借助预训练中获得的世界知识,LLM表现出强大的长尾场景泛化能力,如对罕见交通参与者、极端天气条件的适应性;第三,多模态融合机制支持视觉、语言与轨迹信息的统一表示,为构建端到端可解释的自动驾驶系统奠定了基础。
然而,将LLM应用于实际驾驶系统仍面临诸多挑战。实时性方面,自回归解码延迟常超过100毫秒,难以满足车辆控制周期(通常低于50毫秒)的严格要求;数据层面,缺乏大规模高质量的轨迹-文本配对数据,且合成数据与真实场景间存在仿真到现实的差距;鲁棒性方面,恶劣天气、传感器退化等开放环境问题仍是当前模型的薄弱环节。此外,模型偏见、公平性等伦理问题也需在系统设计中被充分考虑。
未来研究应重点围绕以下方向展开:一是发展超低延迟推理技术,如非自回归解码、动态计算分配等,以满足实时控制需求;二是构建面向运动的基础模型,通过大规模轨迹预训练提升模型的运动语义理解与生成能力;三是推进世界感知与因果推理模型的研究,使轨迹预测不仅基于关联模式,更建立在因果机制之上。综上所述,LFMs正推动轨迹预测技术向更安全、可解释、适应性强的新阶段发展,其与自动驾驶系统的深度融合将为实现全场景无人驾驶提供关键支撑。

发表回复