2025-03-21 nuScenes SOTA！复旦BridgeAD：历史预测与规划无缝融合助力端到端登顶（CVPR’25）

原文链接：https://zhuanlan.zhihu.com/p/31677828253

端到端自动驾驶通过可微框架统一多任务，支持以规划为导向的优化，近年来受到广泛关注。现有方法主要通过密集的历史鸟瞰图（BEV）特征或稀疏的记忆库查询来聚合历史信息，沿用了检测任务的传统范式。然而，我们认为这些范式要么忽略了运动规划中的历史信息，要么未能与其多步骤特性（需预测或规划多个未来时间步）有效对齐。基于“未来是过去的延续”这一理念，我们提出BridgeAD方法，将运动与规划查询重构为多步骤查询，以区分每个未来时间步的查询目标。这一设计使得历史预测与规划信息能够根据时间步针对性地应用于端到端系统的不同模块，从而提升感知与运动规划的协同性。

具体而言，当前帧的历史查询与感知模块结合，未来帧的查询则与运动规划模块集成。通过这种方式，我们在每个时间步聚合历史信息，弥合了过去与未来的鸿沟，增强了端到端自动驾驶管线的整体连贯性与准确性。在nuScenes数据集上的大量实验（包括开环和闭环设置）表明，BridgeAD取得了最先进的性能。

论文简介

自动驾驶技术近年来发展迅速。传统系统采用模块化方法，将任务划分为感知、预测和规划，虽简化了各任务，但可能中断信息流并导致误差累积。端到端方法统一这些任务，支持以规划为导向的优化，提升了系统一致性，因而受到越来越多的关注。

现有端到端方法主要沿用检测任务的范式，利用时序信息增强性能。这些范式大致分为两类：密集方法聚合历史鸟瞰图（BEV）特征，稀疏方法通过稀疏记忆库查询交互。然而，我们认为这些范式存在不足。如图1(a)所示，前者仅在感知模块中利用时序信息，忽略了其在运动规划中的重要性；后者与历史运动规划查询的交互较为粗糙，每个查询对应一个轨迹实例，未与运动规划的多步骤特性（需预测或规划多个未来时间步以适应动态代理状态）对齐，导致次优结果。

本文提出BridgeAD框架（图1(b)），通过历史预测与规划增强端到端自动驾驶。基于“未来是过去的延续”这一理念，我们首先将运动与规划查询分解为多步骤查询，区分每个未来时间步的目标。随后，当前帧的运动查询（源自历史预测）与感知模块结合以提升感知精度，未来帧的运动与规划查询（源自历史预测与规划）则与运动规划模块集成，通过步骤级交互优化预测与规划结果。此外，运动与规划查询在对应时间步的交互确保了周围代理预测与自车规划的一致性。通过这种方式，BridgeAD在每个时间步聚合历史信息，弥合了过去与未来的鸿沟，增强了端到端自动驾驶管线的整体连贯性与准确性。

主要贡献如下：

多步骤查询表示：将运动与规划查询分解为多步骤形式，针对每个未来时间步利用历史信息。
历史信息融合框架：提出BridgeAD，通过历史预测与规划增强端到端自动驾驶管线。
实验验证：在nuScenes数据集的开环与闭环测试中均达到最优性能。

方法详解

概述

BridgeAD框架如图2所示，包含三个主要组件：图像编码器、历史增强感知模块和历史增强运动规划模块。首先，图像编码器从多视角图像中提取多尺度空间特征。随后，历史增强感知模块通过稀疏方法执行3D目标检测、跟踪和在线矢量化地图构建，并通过历史Mot2Det融合模块整合历史信息。最后，历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成，利用历史数据生成运动预测和规划输出。此外，内存队列缓存历史运动和规划查询，为上述模块提供历史信息支持。

多步骤运动与规划查询缓存

实验结果分析

实验设置

数据集与评估指标
我们在具有挑战性的nuScenes数据集上进行实验，该数据集包含1000个持续20秒的驾驶场景，提供语义地图和3D目标检测标注，采样频率为2Hz，每个关键帧包含6张相机图像。

开环测试：遵循VAD的L2位移误差指标，以及Li等定义的碰撞率（Collision Rate）。
闭环测试：基于NeuroNCAP仿真框架，使用nuScenes数据集构建逼真的安全关键场景。评估指标包括NeuroNCAP分数和碰撞率。
感知与预测指标：检测任务使用mAP和NDS；跟踪任务使用AMOTA、AMOTP和IDS；在线建图使用mAP；运动预测使用ADE、FDE、MR和EPA。

实现细节

模型配置：BridgeAD-S使用ResNet50编码图像特征（输入尺寸256×704），BridgeAD-B使用ResNet101（输入尺寸512×1408）。
训练设置：采用AdamW优化器，余弦退火学习率调度，初始学习率1×10⁻⁴，权重衰减1×10⁻³。分两阶段训练：第一阶段专注感知任务（100轮），第二阶段端到端训练（15轮）。
超参数：运动预测时间步Tmot=12（预测周围智能体6秒未来轨迹），规划时间步Tplan=6（规划自车3秒未来轨迹）。历史信息缓存K=3帧。

与现有方法的对比

开环规划结果
表1对比了BridgeAD与现有端到端自动驾驶方法（如UniAD、VAD、SparseDrive）及世界模型方法（如OccWorld-D）的性能。

L2位移误差：BridgeAD-S在3秒平均误差为0.59m，优于次优方法SparseDrive（0.61m）。
碰撞率：BridgeAD-S的平均碰撞率仅0.09%，显著低于UniAD（0.61%）和VAD（0.21%）。
效率：BridgeAD-S在NVIDIA RTX 3090上的推理速度为5.0 FPS，优于VAD（6.1 FPS）和UniAD（1.8 FPS）。

闭环规划结果
表2展示了NeuroNCAP仿真结果：

无后处理：BridgeAD-S的NeuroNCAP得分为1.52（对比SparseDrive的0.92），碰撞率降低12.4%（对比UniAD）。
后处理：结合UniAD的轨迹优化策略后，BridgeAD-B得分提升至3.06，碰撞率进一步降至44.3%。

感知与运动预测结果

检测与跟踪（表4）：BridgeAD-B的mAP达0.507，AMOTA为0.512，优于BEVFormer和UniAD。
运动预测（表3）：BridgeAD-S在ADE/FDE指标上分别为0.62/0.98m（车辆）和0.70/0.99m（行人），优于ViP3D和SparseDrive。

消融实验

规划模块设计的影响
表5显示：

移除历史增强规划模块（ID-1）导致L2误差上升17%（0.71→0.59）。
移除运动-规划交互模块（ID-2）使碰撞率增加10%（0.18→0.09）。

感知与预测模块设计的影响
表6表明：

历史运动预测模块（HisMot）对检测（mAP↑0.019）、跟踪（AMOTA↑0.029）和运动预测（ADE↓0.04）均有显著提升。

自注意力机制的作用
表7验证了规划模块中步级（SLA）和模式级（MLA）自注意力的必要性，二者联合使L2误差降低10.5%（0.66→0.59）。

历史时间步数的影响
表8显示，运动预测使用6步历史信息、规划使用3步历史信息时性能最优（L2误差0.59，碰撞率0.09）。

效率分析

BridgeAD-S的推理延迟为157.2ms，显著快于VAD（224.3ms）和UniAD（555.6ms），在精度与效率间取得平衡。

定性分析

图3展示了开环场景中BridgeAD的感知、预测与规划结果的一致性。图4对比了闭环仿真中BridgeAD与UniAD/SparseDrive在紧急场景下的避撞能力，前者通过历史信息聚合实现了更连贯的路径规划。

2025-03-21 nuScenes SOTA！复旦BridgeAD：历史预测与规划无缝融合助力端到端登顶（CVPR’25）

论文简介

相关工作回顾

方法详解

概述

实验结果分析

实验设置

与现有方法的对比

消融实验

效率分析

定性分析

发表回复取消回复

Categories

Archives

2025-03-21 nuScenes SOTA！复旦BridgeAD：历史预测与规划无缝融合助力端到端登顶（CVPR’25）

论文简介

相关工作回顾

方法详解

概述

实验结果分析

实验设置

与现有方法的对比

消融实验

效率分析

定性分析

发表回复 取消回复

Categories

Archives

发表回复取消回复