2025-10-14 地平线残差端到端是如何实现的？ResAD：残差学习让自动驾驶决策更接近人类逻辑

原文链接：https://mp.weixin.qq.com/s/hUnUdDNTvB7-uU8TBMNyZg

想让车子自己开，传统方法得像搭积木：先“看”（感知），再“猜”（预测），最后“做决定”（规划）。这套流程环环相扣，一个环节出错，后面全跟着错，既不高效，也不安全。

于是，端到端自动驾驶 成了一条新路。它想让AI像老司机一样，直接把看到的（传感器数据）变成要走的路线（未来轨迹）。想法很美好，但现实很骨感：现有的端到端模型，大多在死磕一个问题——“未来的轨迹长啥样？”

这带来了两大麻烦：

因果混淆：模型可能会“偷懒”，学一些表面功夫。比如它看到前车刹车灯亮就刹车，但根本不理解是因为路口变红灯了。结果可能跟着前车一起闯红灯，非常危险。
规划困境：规划未来越久，不确定性越大。模型为了“蒙对”遥远未来的大偏差，反而忽略了眼前最紧要、最需要精确的调整，这叫“捡了芝麻丢西瓜”。

为了解决这些问题，地平线、华科和武大的团队提出了 ResAD 框架。核心思想很简单：不直接预测整条轨迹，而是先给一个“惯性参考线”——就是车子如果不动方向盘会走的路线。然后，让模型只学习一个“调整量”（残差），即为了安全行驶，需要偏离这根参考线多少。

这样一来，学习目标就从 “轨迹是什么？” 变成了 “为什么要调整方向？”。模型被迫去关注那些导致调整的真实原因，比如障碍物、交通规则等，而不是死记硬背数据里的巧合。

我们还引入了 逐点残差归一化，确保模型不会因为要纠正遥远的、不确定的大偏差，而忽略了近处关键的小调整。

实验证明，这套方法非常有效。在 NAVSIM 基准测试中，ResAD取得了领先的成绩。这说明，通过引入“惯性参考”这个物理常识，并让模型专注于学习“为何要改变”，我们让端到端自动驾驶的学习任务变得更简单、更安全、更可靠。

ResAD也提供了实车测试视频，在近20 钟视频中，本方法展现出优秀的可行性与系统可靠性。测试场景不仅涵盖宽阔平直的道路，也包括施工路段借道绕行等复杂情形，自车均能稳定、顺畅地通过。更值得注意的是，系统在面对动态障碍时的智能响应：当旁侧公交车突然切入时，自车能够平稳减速让行；而当前方车辆行驶缓慢时，又能主动执行绕行超车。这些贴近真实驾驶逻辑的决策行为，与作者所提出的“逐点残差归一化”机制密切相关——它使模型能够更精准地关注近距离的轨迹调整，从而在关键时刻做出既安全又拟人的操作。

论文题目: ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving
论文链接：https://arxiv.org/pdf/2510.08562

相关工作回顾

端到端自动驾驶

端到端自动驾驶旨在克服传统模块化流水线的局限性，例如误差累积和模块间信息丢失。像 UniAD 这样的开创性工作引入了一种面向规划的架构，通过联合优化感知和预测来减轻误差传播。VAD 则通过完全向量化的场景表征进一步简化了流程，使得能够强制执行显式的、实例级的安全约束。

最近，生成式模型成为了 E2EAD 研究的新前沿。例如，GoalFlow 提出了一种目标条件的生成模型，它首先根据场景上下文选择一个最优目标点，然后使用流匹配来高效地生成朝向该点的高质量轨迹。

尽管取得了这些进展，现有方法主要仍依赖于对未来轨迹的直接预测。在本工作中，我们脱离了这一范式，引入了归一化残差轨迹建模。我们的方法通过将轨迹分解为一个基于物理的惯性参考和一个可学习的残差，为轨迹表征提供了一种更具结构性和可解释性的新思路。

多模态规划

大多数 E2EAD 系统只产生单一、确定的轨迹，这种方法难以应对现实驾驶场景中固有的多样性。为了解决这个问题，一些研究探索了多模态规划。

VADv2 提出了一个概率规划框架，输出未来轨迹的分布，通过采样可以产生多样化的行为。
Hydra-MDP 系列采用策略蒸馏，从一个由专家引导的轨迹“词库”中选择多个轨迹
GTRS 采用了不同的策略，通过给一组预先生成的轨迹打分来确保多样性和安全性。
DiffusionDrive 则关注生成式模型中的“模式崩溃”问题，通过将轨迹生成锚定到一个固定的聚类词库来解决。

然而，这些方法从根本上都依赖于一个静态的、预定义的词库。这导致它们效率低下且受限，因为它们需要评估大量不相关的选项，同时又无法生成词库之外的、真正最优的轨迹。

与它们不同，ResAD 得益于其独特的轨迹建模策略，能够直接从高斯噪声中去噪，从而产生更优的、与上下文相关的多模态轨迹，摆脱了对固定词库的依赖。

方法论

基础知识

归一化残差轨迹建模

如图 2 所示，ResAD 以多视角图像和 LiDAR 点云作为输入，通过一个 Transfuser 风格的编码器进行融合。我们从自车状态生成一个惯性参考。ResAD随后将这个参考扰动成一个簇，以确保对状态噪声的鲁棒性并实现多模态预测。扩散解码器采用交叉注意力机制来融合编码后的特征，并使用惯性参考簇作为条件来指导训练。

轨迹残差建模

逐点残差归一化

惯性参考扰动

训练与推理

多模态轨迹排序器

实验

基准测试

主要结果

定量比较

表 1 中的结果显示，ResAD 在 NAVSIM v1 navtest 分割上实现了最先进的性能，PDMS 为 88.6。我们的 NC 为 98.0，与最高分相当，通过最小化碰撞确保了高水平的安全性。我们的模型实现的 EP 为 82.5，是一个显著的结果，表明路线完成效率高。ResAD 在 DAC 方面表现出色，得分为 97.3，优于 WoTE 的 96.8。这表明我们的模型更严格地遵守车道边界和可行驶区域，这是安全且可预测的驾驶行为的关键方面。在更具挑战性的 NAVSIM v2 基准上，ResAD 的优势进一步扩大。

如表 2 所示，ResAD 在几乎所有扩展子指标上都取得了最佳或次佳性能。具体来说，ResAD 的 EPDMS 为 85.5，比 DiffusionDrive 高出 1.0。它的 EP 得分更高，为 88.2（对比 87.5），表明它能更有效地完成路线。此外，它在 DAC 方面显示出显著优势，得分为 97.2 对比 95.9，证实了其生成更精确轨迹、更好遵守车道边界的能力。ResAD 还表现出更精细的车辆操控能力，在 LK 上得分略高。

定性比较

在 NAVSIM 上的定性比较（图 3）突出了 ResAD 和 DiffusionDrive 的不同多模态策略。虽然两者都成功避免了典型普通扩散模型的模式崩溃，但它们的基本方法存在显著差异。DiffusionDrive 依赖于静态的、预定义的轨迹词库。这种与上下文无关的方法迫使它生成许多不相关或不可行的选项，例如在急转弯场景中直行（图中红圈标出）。尽管后续的过滤步骤可以修剪这些无效路径，但这种两阶段过程本质上是低效的。相比之下，ResAD 通过独特的轨迹建模转变克服了这一限制。这是通过扰动自车速度的机制实现的。它直接探索一组合理的行为，生成与即时驾驶上下文内在一致的轨迹。