原文链接:https://zhuanlan.zhihu.com/p/31677828253
端到端自动驾驶通过可微框架统一多任务,支持以规划为导向的优化,近年来受到广泛关注。现有方法主要通过密集的历史鸟瞰图(BEV)特征或稀疏的记忆库查询来聚合历史信息,沿用了检测任务的传统范式。然而,我们认为这些范式要么忽略了运动规划中的历史信息,要么未能与其多步骤特性(需预测或规划多个未来时间步)有效对齐。基于“未来是过去的延续”这一理念,我们提出BridgeAD方法,将运动与规划查询重构为多步骤查询,以区分每个未来时间步的查询目标。这一设计使得历史预测与规划信息能够根据时间步针对性地应用于端到端系统的不同模块,从而提升感知与运动规划的协同性。
具体而言,当前帧的历史查询与感知模块结合,未来帧的查询则与运动规划模块集成。通过这种方式,我们在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。在nuScenes数据集上的大量实验(包括开环和闭环设置)表明,BridgeAD取得了最先进的性能。
论文简介
自动驾驶技术近年来发展迅速。传统系统采用模块化方法,将任务划分为感知、预测和规划,虽简化了各任务,但可能中断信息流并导致误差累积。端到端方法统一这些任务,支持以规划为导向的优化,提升了系统一致性,因而受到越来越多的关注。
现有端到端方法主要沿用检测任务的范式,利用时序信息增强性能。这些范式大致分为两类:密集方法聚合历史鸟瞰图(BEV)特征,稀疏方法通过稀疏记忆库查询交互。然而,我们认为这些范式存在不足。如图1(a)所示,前者仅在感知模块中利用时序信息,忽略了其在运动规划中的重要性;后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。

本文提出BridgeAD框架(图1(b)),通过历史预测与规划增强端到端自动驾驶。基于“未来是过去的延续”这一理念,我们首先将运动与规划查询分解为多步骤查询,区分每个未来时间步的目标。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。此外,运动与规划查询在对应时间步的交互确保了周围代理预测与自车规划的一致性。通过这种方式,BridgeAD在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。
主要贡献如下:
- 多步骤查询表示:将运动与规划查询分解为多步骤形式,针对每个未来时间步利用历史信息。
- 历史信息融合框架:提出BridgeAD,通过历史预测与规划增强端到端自动驾驶管线。
- 实验验证:在nuScenes数据集的开环与闭环测试中均达到最优性能。
相关工作回顾
感知
感知模块从原始传感器数据中提取有效信息,主要包括3D检测、多目标跟踪(MOT)和在线地图构建。对于3D检测,一系列基于LSS的方法通过深度估计从2D图像特征生成BEV(鸟瞰图)表示;其他方法则使用预定义的BEV查询进行特征采样。近期方法采用稀疏方法,利用稀疏查询进行时空聚合。对于多目标跟踪,部分工作采用“检测-跟踪”范式,而另一些通过轨迹查询持续建模跟踪实例。在线地图构建方面,HDMapNet通过BEV语义分割结合后处理实现,VectorMapNet采用两阶段自回归Transformer构建矢量化地图,MapTR及其后续工作将地图元素视为置换等价的点集,取得了显著性能。
运动预测
运动预测旨在预测周围智能体的多模态未来轨迹。受检测任务中对象查询的启发,部分方法采用以查询为中心的范式,在运动预测基准中表现优异。一些工作通过引入历史预测或流式处理提升预测性能,其他方法探索从多视角图像端到端预测轨迹。ViP3D利用智能体查询联合执行跟踪与预测,输入包括图像和HD地图。
规划
规划方法分为基于规则和基于学习两类,在规划基准中广泛研究。部分工作探索利用信念状态改进规划或决策。近期,端到端规划因能统一感知、预测和规划而备受关注。早期方法常绕过中间任务(如感知和运动预测)。ST-P3结合地图感知、BEV占用预测和轨迹规划生成自车路径。UniAD通过统一查询设计显著推进端到端自动驾驶,在多项任务中表现突出。VAD采用矢量化地图表示提升效率,GenAD通过生成式框架在潜在空间中预测轨迹,SparseDrive采用稀疏场景表示和并行规划结构。然而,这些方法未充分探索如何利用历史信息提升连续驾驶中的规划连续性与精度。本文的BridgeAD首次将历史预测与规划整合至端到端设计中。
方法详解
概述
BridgeAD框架如图2所示,包含三个主要组件:图像编码器、历史增强感知模块和历史增强运动规划模块。首先,图像编码器从多视角图像中提取多尺度空间特征。随后,历史增强感知模块通过稀疏方法执行3D目标检测、跟踪和在线矢量化地图构建,并通过历史Mot2Det融合模块整合历史信息。最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。此外,内存队列缓存历史运动和规划查询,为上述模块提供历史信息支持。

多步骤运动与规划查询缓存



实验结果分析
实验设置
数据集与评估指标
我们在具有挑战性的nuScenes数据集上进行实验,该数据集包含1000个持续20秒的驾驶场景,提供语义地图和3D目标检测标注,采样频率为2Hz,每个关键帧包含6张相机图像。
- 开环测试:遵循VAD的L2位移误差指标,以及Li等定义的碰撞率(Collision Rate)。
- 闭环测试:基于NeuroNCAP仿真框架,使用nuScenes数据集构建逼真的安全关键场景。评估指标包括NeuroNCAP分数和碰撞率。
- 感知与预测指标:检测任务使用mAP和NDS;跟踪任务使用AMOTA、AMOTP和IDS;在线建图使用mAP;运动预测使用ADE、FDE、MR和EPA。
实现细节
- 模型配置:BridgeAD-S使用ResNet50编码图像特征(输入尺寸256×704),BridgeAD-B使用ResNet101(输入尺寸512×1408)。
- 训练设置:采用AdamW优化器,余弦退火学习率调度,初始学习率1×10⁻⁴,权重衰减1×10⁻³。分两阶段训练:第一阶段专注感知任务(100轮),第二阶段端到端训练(15轮)。
- 超参数:运动预测时间步
Tmot=12(预测周围智能体6秒未来轨迹),规划时间步Tplan=6(规划自车3秒未来轨迹)。历史信息缓存K=3帧。

与现有方法的对比
开环规划结果
表1对比了BridgeAD与现有端到端自动驾驶方法(如UniAD、VAD、SparseDrive)及世界模型方法(如OccWorld-D)的性能。
- L2位移误差:BridgeAD-S在3秒平均误差为0.59m,优于次优方法SparseDrive(0.61m)。
- 碰撞率:BridgeAD-S的平均碰撞率仅0.09%,显著低于UniAD(0.61%)和VAD(0.21%)。
- 效率:BridgeAD-S在NVIDIA RTX 3090上的推理速度为5.0 FPS,优于VAD(6.1 FPS)和UniAD(1.8 FPS)。
闭环规划结果
表2展示了NeuroNCAP仿真结果:
- 无后处理:BridgeAD-S的NeuroNCAP得分为1.52(对比SparseDrive的0.92),碰撞率降低12.4%(对比UniAD)。
- 后处理:结合UniAD的轨迹优化策略后,BridgeAD-B得分提升至3.06,碰撞率进一步降至44.3%。


感知与运动预测结果
- 检测与跟踪(表4):BridgeAD-B的mAP达0.507,AMOTA为0.512,优于BEVFormer和UniAD。
- 运动预测(表3):BridgeAD-S在ADE/FDE指标上分别为0.62/0.98m(车辆)和0.70/0.99m(行人),优于ViP3D和SparseDrive。

消融实验
规划模块设计的影响
表5显示:
- 移除历史增强规划模块(ID-1)导致L2误差上升17%(0.71→0.59)。
- 移除运动-规划交互模块(ID-2)使碰撞率增加10%(0.18→0.09)。

感知与预测模块设计的影响
表6表明:
- 历史运动预测模块(HisMot)对检测(mAP↑0.019)、跟踪(AMOTA↑0.029)和运动预测(ADE↓0.04)均有显著提升。
自注意力机制的作用
表7验证了规划模块中步级(SLA)和模式级(MLA)自注意力的必要性,二者联合使L2误差降低10.5%(0.66→0.59)。

历史时间步数的影响
表8显示,运动预测使用6步历史信息、规划使用3步历史信息时性能最优(L2误差0.59,碰撞率0.09)。
效率分析
BridgeAD-S的推理延迟为157.2ms,显著快于VAD(224.3ms)和UniAD(555.6ms),在精度与效率间取得平衡。

定性分析
图3展示了开环场景中BridgeAD的感知、预测与规划结果的一致性。图4对比了闭环仿真中BridgeAD与UniAD/SparseDrive在紧急场景下的避撞能力,前者通过历史信息聚合实现了更连贯的路径规划。

发表回复