2025-02-18 端到端规划误差降低40%！毫末最新OAD：轨迹偏移学习助力端到端新SOTA~

端到端自动驾驶技术在近年来取得了显著进展。在本研究中，我们提出了轨迹偏移学习，将传统的直接预测自车轨迹，转换为预测相对于轨迹锚点的偏移，降低模型学习的难度。与baseline模型相比，该方法显著提高了规划精度和安全性，在nuScenes上将L2 error降低了39.7%（从0.78m降至0.47m），并将碰撞率降低了84.2%（从0.38%降至0.06%）。此外，OAD展示了生成多样化、多模轨迹的能力，增强了其对复杂驾驶场景的适应性。

技术报告和可视化内容，参考项目主页：https://wzn-cv.github.io/OAD

简介

本报告在VAD框架的基础上构建了更强大的基线模型。具体而言，我们通过实证验证了几种明确且有效的技术，包括与鸟瞰视角（BEV）的交互、指令插入位置。此外，我们设计了一种创新的方法，利用轨迹词汇表来学习偏移量，而非直接学习轨迹。

OAD算法核心

与BEV的交互

在规划模块中，VAD仅设计了自车查询（ego query）与Agent查询（agent queries）和地图查询（map queries）之间的交互，其中并未涉及BEV特征，如图2(a)所示。这导致自车查询只能感知结构化的障碍物和地图信息，而无法捕捉周围环境的丰富特征和全面信息。受UniAD的启发，我们将自车查询与BEV特征进行关联，从而使系统能够更好地理解和感知其周围环境。

此外，对于每个高级指令（high-level command），VAD使用一个对应的多层感知机（MLP）头来输出轨迹。我们认为这种设计可能导致参数冗余。因此，我们引入了高级指令嵌入作为条件输入，使所有高级指令共享一个单一的MLP头进行轨迹解码。

高级指令插入位置

在UniAD中，高级指令仅在自车查询与密集BEV特征进行交叉注意力（cross-attention）之前被引入。我们认为，高级指令不仅应在与BEV的交叉注意力之前引入，还应在轨迹解码MLP之前引入。前者使自车能够更加关注与高级指令相对应的区域，从而降低碰撞率；后者则使轨迹解码器能够显式捕捉未来方向，从而减少位移误差。因此，我们在两个位置都引入了高级指令嵌入，如图2(b)所示。

学习轨迹偏移量

实验结果分析

相关配置

本文采用的基线模型是VAD-Tiny，其具有100×100的鸟瞰图（BEV）查询。为清晰简洁起见，在本论文中VAD-Tiny统一简称为VAD。与VAD一致，我们的研究也使用了nuScenes数据集。在评估方面，位移误差（DE）和碰撞率（CR）被用于全面评估规划性能。需要注意的是，在所有实验中，我们有意不将自车状态作为输入数据，以避免开环规划中的捷径学习。在训练过程中，我们使用8块NVIDIA A100 GPU，并遵循VAD的优化调度器。我们进行了超参调整，总批次大小为32、初始学习率为4×10⁻⁴时可实现最佳性能。

定量结果

上述方法的定量结果汇总于表1。显然，每项设计都带来了显著的性能提升。

定性结果

我们对OAD和VAD进行定性比较，以说明改进措施的有效性，如图3所示。可视化结果表明，OAD能够在复杂场景中实现更好的轨迹规划。在图（a）和（e）中，即使在夜间条件下，OAD在接近前车时也能通过制动展现出避撞能力。在图（c）中，OAD成功识别出前方车辆（VAD未能识别），从而避免了直线行驶，有效降低了碰撞风险。在路口转弯场景中，与VAD相比，OAD生成的轨迹更平滑、更合理，在图（b）、（d）和（f）中降低了驾驶风险。利用轨迹词汇表，OAD天然具备多模态规划能力，如图4所示。这为下游任务提供了更大的潜力。

结论

在本研究中，我们提出了对VAD框架的多项改进，特别聚焦于学习相对于规划词汇表的偏移量。定量结果和定性结果均表明了这些改进的有效性。我们将持续提出新的优化措施，以实现更卓越的端到端规划性能。闭环评估也将成为我们未来工作的一部分。

2025-02-18 端到端规划误差降低40%！毫末最新OAD：轨迹偏移学习助力端到端新SOTA~

发表回复取消回复

Categories

Archives

2025-02-18 端到端规划误差降低40%！毫末最新OAD：轨迹偏移学习助力端到端新SOTA~

发表回复 取消回复

Categories

Archives

发表回复取消回复