2026-03-06 把扩散模型干上车！清华&小米HDP：实车验证，端到端闭环性能提升10倍……

原文链接：https://mp.weixin.qq.com/s/qhO_v66mqX5bhWv3zsbVvg

本文介绍清华AIR和小米汽车的团队最新工作 Hyper Diffusion Planner (HDP)：一个面向真实道路部署的扩散模型端到端自动驾驶规划框架。不同于大量停留在开环指标或仿真结果的方法，HDP直接面向实车表现从模型设计、训练范式都做了系统性探索，目标是回答一个关键问题：

扩散模型在自动驾驶规划中的潜力，是否被真正发挥出来了？

在这项研究中，清华AIR和小米汽车的团队系统地探索了如何训练和设计基于扩散模型的自动驾驶端到端模型，并成功在 Xiaomi SU7 上完成部署并进行了实车验证。

HDP的目标是充分发挥扩散模型本身的能力，因此摒弃了诸如 goal、anchor 等强先验设计，而是基于“纯”扩散模型，系统研究了扩散模型的 loss 设计和轨迹表示方法对模型性能的影响。在企业级规模数据的支持下，我们进一步验证了模型性能的 scaling 特性，并发现只有在数据规模足够大时，扩散模型的 多模态能力 才能被充分激发，而这一能力在现有 benchmark 的数据规模下往往难以体现。

此外，HDP还引入强化学习进一步提升模型能力，并同样通过实车实验进行了验证。经过 200 km 的实车测试，结果表明，相比于最基础的模型，我们的框架在真实道路环境中的性能提升达到 10 倍，验证了扩散模型用于自动驾驶端到端系统的可行性与潜力。

论文链接：https://arxiv.org/pdf/2602.22801

项目主页：https://zhengyinan-air.github.io/Hyper-Diffusion-Planner/

背景：为什么我们还需要重新审视“扩散 + 自动驾驶”？

扩散模型在生成与决策任务中已经展现出强大能力，但在自动驾驶领域，很多工作仍然局限在开环回放或仿真环境。
要真正跑到实车上，挑战并不小：

能力与效率要同时满足：既要理解复杂场景，又要满足车端实时要求；
闭环误差会累积放大：一点偏差可能在连续决策中演化为明显风险；
过度工程掩盖模型能力：现有的工程落地方案依赖锚点、目标点等额外先验条件或重后处理，难以验证扩散模型本体上限。

我们希望走一条更“干净”的路线：在不过度堆叠先验的前提下，系统释放扩散模型在端到端规划中的潜力。

方法总览：HDP 做了什么？

1) 重新审视扩散损失空间：规划任务要用“对的目标”训练

扩散模型常见的训练目标来自图像生成范式，但自动驾驶规划和图像生成有本质差异：规划轨迹是低维、强约束、强时序相关的决策输出。如果直接沿用“通用配置”，很容易出现训练不稳定、轨迹抖动和闭环表现退化。

为此我们系统比较了 9 种 prediction-loss 组合（tau0 / v / epsilon 预测与监督的全组合），结论非常明确：

在规划任务中，tau0-pred + tau0-loss 的收敛速度和稳定性明显更好；
生成轨迹更平滑，末段抖动更少，几何质量更高；
这一配置更符合“轨迹数据流形本身”的学习规律，而不是被噪声空间牵着走。

这一步的意义在于：先把扩散模型的“基础训练坐标系”调准，后续的表征设计与数据扩展才能真正起效。

2) 轨迹表示双优融合：Hybrid Loss 同时兼顾几何与动力学

在轨迹表示上，我们观察到一个非常典型的 trade-off：

waypoint 表示更利于几何对齐，但速度曲线容易抖动；
velocity 表示更平滑，但对全局轨迹形状恢复不够充分。

如果只选一边，就会在“轨迹形状”与“动力学平顺”之间做妥协。因此我们提出 Hybrid Loss：模型仍然输出速度，但训练时同时施加两类监督：

直接监督速度误差，保证局部动力学一致性；
通过积分后的 waypoint 监督全局几何趋势，避免轨迹偏形。

理论上，我们证明了Hybrid Loss 仍然对应有效的扩散学习目标；

工程上，在实车闭环测试中它显著拉升成功率与稳定性，是从“能跑”到“跑得稳”的关键一步。

3) 数据规模带来“涌现”：近亿级真实帧的系统验证

我们做了从 10M 到 70M 帧的受控扩展实验，重点回答一个问题：真实数据规模到底能带来什么？

实验结果显示：

小数据下扩散规划容易模式塌缩；
数据规模上来后，多模态行为能力明显增强；

开环与闭环指标均持续提升，验证真实场景中的 scaling 特性。

更重要的是，数据扩展不仅提升“平均分”，还提升了模型对长尾交通交互的覆盖能力：同一场景下可以生成更合理的多种可行行为，而不是单一僵化策略。这说明扩散规划在工业级数据条件下具备稳定、持续的可扩展潜力。

4) RL 后训练：进一步强化安全能力

模仿学习可以学到“像人开车”，但在安全关键场景中，仍然需要更直接的目标优化。因此在 IL 预训练之后，我们加入与 Hybrid Loss 兼容的 RL 后训练策略，重点针对安全相关行为做强化。

如果用一个更“公式化”的方式来描述，我们先在旧策略基础上写出一个带 KL 正则的离线 RL 优化目标，用来约束新策略不要偏离原来的模仿策略：

这个目标的闭式最优解可以写成一条简单的“加权重采样”形式：在原策略的基础上，用 (\exp(\beta r)) 对高回报轨迹进行放大：

在具体实现上，我们并不显式采样这条新策略，而是把它“折叠”进扩散训练，得到一个带权重的混合回归损失：回报越高的样本，对应的扩散监督权重越大：

这里的范数与前文 Hybrid Loss 使用的是同一个加权范数，这样就把“更安全”的偏好自然注入到了同一套扩散 + 混合损失框架中，我们在论文中给出了详细的证明。相比之下，很多针对扩散模型的 RL 方法会把整个去噪过程当成一个多步 MDP：将每个 denoise step 拆成一个时间步，再用 PPO 等 RL 算法去优化整条“去噪轨迹”。这类方法一方面实现复杂（需要在采样过程中显式建模中间状态），另一方面必须使用足够细的时间离散才能保证高斯近似成立，导致计算量和显存开销都显著增加。我们的做法只是在原本的 IL diffusion loss 外面乘上一个简单的回报权重，相当于“加权监督学习”，既兼容现有训练管线，又能在几乎不增加工程复杂度的前提下，让扩散规划器朝着更安全的方向偏移。

最终我们得到 HDP-RL：在真实闭环场景中，模型在安全相关任务上的表现进一步提升，实现从“能开”到“开得更稳、更安全”的持续进化。