原文链接:https://mp.weixin.qq.com/s/YhubLOzh2-1b9TcboTasfA
本文的核心设计哲学在于:去除掉冗余的动力学细节,让模型专注于规划的高层语义。LAP 通过将规划放到去除掉动力学细节的语义空间上进行,从而提高了模型对复杂、多模态的驾驶策略的建模能力,并大大提升了推理速度。
本文首先设计了针对轨迹数据的 VAE 模型,将原始轨迹压缩到语义化的潜在空间,随后在潜在空间上作规划,让模型专注于高层驾驶策略。其次,针对潜在空间规划带来的挑战,本文进一步引入初始状态注入、无分类器引导、细粒度特征蒸馏等技术进一步提升模型性能。在大规模自动驾驶规划数据集 nuPlan 上的实验证实了方法的有效性。尤其在最具挑战性的 Test14-hard 数据集上,模型以十倍的推理加速,取得大幅领先当前 SOTA 方法(提高约 3.1 score)的性能,闭环评测分数达到 78.52。
- 论文标题:LAP: Fast LAtent Diffusion Planner with Fine-Grained Feature Distillation for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2512.00470
背景回顾 (Background Review)
自动驾驶系统的核心在于能够处理复杂交互环境的鲁棒运动规划。该领域的发展经历了以下几个阶段和挑战:
- 传统方法的局限性: 早期的基于规则的系统(如有限状态机)虽然具有可解释性,但其手工设计的逻辑难以扩展,无法应对开放世界中的长尾场景。
- 模仿学习 (Imitation Learning, IL) 的瓶颈: 数据驱动的 IL 方法容易受到“模式平均”(mode-averaging)的影响,即模型将多个有效的专家轨迹坍缩成单一的、物理上不可行的路径,无法捕捉人类决策的多模态特性。
- 扩散模型的引入与带来的问题: 去噪扩散概率模型(DDPMs)虽然能够建模复杂的多模态分布,但现有方法直接在原始轨迹的路点(waypoints)上进行操作。这种做法存在两个核心缺陷:
- 计算效率低: 迭代采样过程导致显著的延迟。
- 容量浪费: 模型将大量能力消耗在模拟底层的运动学细节(如连续性、速度限制)上,而不是关注高层的驾驶策略语义。
为了解决这些问题,我们提出了 LAP (LAtent Planner),旨在将高层意图与轨迹的底层运动学解耦,在解耦得到的潜在空间中进行规划。
预备知识 (Preliminaries)
扩散模型基础

无分类器引导 (Classifier-free Guidance)

LatentPlanner 算法详解 (Methodology)
如图1所示,LAP 框架将轨迹生成分解为两个阶段:在高层语义化的潜在空间作规划,随后再以高保真度重建对应轨迹。

图 1:Latent Planner整体框架示意图
轨迹的潜在表示 (Trajectory Representation in Latents)

潜在空间上的规划 (Planning on Latents)


图 2:初始状态注入模块
导航引导增强: 我们观察到模型在闭环规划中会出现“因果混淆”现象:自车完全根据周围车辆当前状态来作决策而完全不按导航路线行进。因此,我们在训练中随机丢弃导航信息,并在推理时使用 Classifier-free Guidance 强化导航约束来缓解这一问题。
弥合语义–感知鸿沟 (Bridging the Semantic–Perception Gap)
在压缩的语义空间规划虽然高效,但也带来新的问题:压缩得到的潜在空间是一个高度抽象化的语义空间,而条件输入(周车历史、车道线等)仍为低层的、细粒度的向量化表示,这导致两者的信息交互与融合变得困难。针对此,我们引入一个细粒度特征蒸馏 (Fine-grained Feature Distillation) 模块来引导规划空间与条件输入空间的信息交互过程:

图 3:细粒度特征蒸馏模块

实验结果及分析 (Experiments)
实验设置
- 数据集: nuPlan 大规模基准测试(1300 小时真实驾驶记录)。
- 评价指标: 闭环评分(Closed-loop Score),包括非反应性(NR)和反应性(R)场景。指标综合考虑了碰撞、舒适度、进度和交通规则遵守情况。
主要结果
LAP 在 nuPlan 基准上取得了优异的成绩。
- 性能对比: 如表1所示,LAP 在所有基于学习的方法中实现了 SOTA 性能,并且在加上后处理(refine)后,甚至超过了部分规则–学习的混合方法。值得注意的是,在最具挑战性的 Test14-hard 数据集上,LAP 大幅超越了先前的 SOTA 方法(约 3.1 的提升),说明潜在空间规划可以让模型更好地建模复杂的驾驶策略,提升困难场景下的性能。

推理速度: 如表2所示,相比于之前的 SOTA 方法 Diffusion Planner(需迭代 10 步),LAP 受益于潜在空间的紧凑性,仅需 2 步 采样即可生成高质量轨迹,实现了最高 10 倍 的推理加速。

定性结果与多模态分析
- 多模态能力: 相比于像素级规划器,潜在空间规划能更好地捕捉多样化的高级驾驶策略(如不同的转弯半径和速度),而不是坍缩到单一模式。参见下图。

图 4:多模态轨迹解码,左图为Latent Planner,右图为Diffusion Planner,Latent Planner表现出更高的多模态驾驶策略
- 潜在空间可视化(附录分析):
- 插值: 潜在空间的线性插值能产生平滑的轨迹过渡,证明了潜在空间的光滑性(参见下图)。

图 5:潜在空间插值
聚类: 潜在向量聚类后对应明显的驾驶意图(如直行、转弯、静止),证明其学到的语义空间是高度结构化的(参见下图)。

图 6:潜在空间聚类
降维可视化: 在原始轨迹空间聚类得到“意图”标签,随后用 UMAP 对潜在空间降维并用对应意图染色,结果显示不同区域基本分离开,说明潜在空间结构与意图对齐良好(参见下图)。

图 7:潜在空降降维可视化
消融实验
如下表所示,我们对各个模块进行了详细的消融分析:



发表回复