端到端自动驾驶技术在近年来取得了显著进展。在本研究中,我们提出了轨迹偏移学习,将传统的直接预测自车轨迹,转换为预测相对于轨迹锚点的偏移,降低模型学习的难度。与baseline模型相比,该方法显著提高了规划精度和安全性,在nuScenes上将L2 error降低了39.7%(从0.78m降至0.47m),并将碰撞率降低了84.2%(从0.38%降至0.06%)。此外,OAD展示了生成多样化、多模轨迹的能力,增强了其对复杂驾驶场景的适应性。
技术报告和可视化内容,参考项目主页:https://wzn-cv.github.io/OAD

简介
本报告在VAD框架的基础上构建了更强大的基线模型。具体而言,我们通过实证验证了几种明确且有效的技术,包括与鸟瞰视角(BEV)的交互、指令插入位置。此外,我们设计了一种创新的方法,利用轨迹词汇表来学习偏移量,而非直接学习轨迹。
OAD算法核心

与BEV的交互

在规划模块中,VAD仅设计了自车查询(ego query)与Agent查询(agent queries)和地图查询(map queries)之间的交互,其中并未涉及BEV特征,如图2(a)所示。这导致自车查询只能感知结构化的障碍物和地图信息,而无法捕捉周围环境的丰富特征和全面信息。受UniAD的启发,我们将自车查询与BEV特征进行关联,从而使系统能够更好地理解和感知其周围环境。
此外,对于每个高级指令(high-level command),VAD使用一个对应的多层感知机(MLP)头来输出轨迹。我们认为这种设计可能导致参数冗余。因此,我们引入了高级指令嵌入作为条件输入,使所有高级指令共享一个单一的MLP头进行轨迹解码。
高级指令插入位置
在UniAD中,高级指令仅在自车查询与密集BEV特征进行交叉注意力(cross-attention)之前被引入。我们认为,高级指令不仅应在与BEV的交叉注意力之前引入,还应在轨迹解码MLP之前引入。前者使自车能够更加关注与高级指令相对应的区域,从而降低碰撞率;后者则使轨迹解码器能够显式捕捉未来方向,从而减少位移误差。因此,我们在两个位置都引入了高级指令嵌入,如图2(b)所示。
学习轨迹偏移量

实验结果分析
相关配置
本文采用的基线模型是VAD-Tiny,其具有100×100的鸟瞰图(BEV)查询。为清晰简洁起见,在本论文中VAD-Tiny统一简称为VAD。与VAD一致,我们的研究也使用了nuScenes数据集。在评估方面,位移误差(DE)和碰撞率(CR)被用于全面评估规划性能。需要注意的是,在所有实验中,我们有意不将自车状态作为输入数据,以避免开环规划中的捷径学习。在训练过程中,我们使用8块NVIDIA A100 GPU,并遵循VAD的优化调度器。我们进行了超参调整,总批次大小为32、初始学习率为4×10⁻⁴时可实现最佳性能。
定量结果
上述方法的定量结果汇总于表1。显然,每项设计都带来了显著的性能提升。

定性结果
我们对OAD和VAD进行定性比较,以说明改进措施的有效性,如图3所示。可视化结果表明,OAD能够在复杂场景中实现更好的轨迹规划。在图(a)和(e)中,即使在夜间条件下,OAD在接近前车时也能通过制动展现出避撞能力。在图(c)中,OAD成功识别出前方车辆(VAD未能识别),从而避免了直线行驶,有效降低了碰撞风险。在路口转弯场景中,与VAD相比,OAD生成的轨迹更平滑、更合理,在图(b)、(d)和(f)中降低了驾驶风险。利用轨迹词汇表,OAD天然具备多模态规划能力,如图4所示。这为下游任务提供了更大的潜力。


结论
在本研究中,我们提出了对VAD框架的多项改进,特别聚焦于学习相对于规划词汇表的偏移量。定量结果和定性结果均表明了这些改进的有效性。我们将持续提出新的优化措施,以实现更卓越的端到端规划性能。闭环评估也将成为我们未来工作的一部分。

发表回复