原文链接:https://mp.weixin.qq.com/s/XdcOvMQiDvXYXbQDcjBBhw
端到端自动驾驶近年来发展迅速,对工业界和学术界均产生了深远影响。然而现有工作过度关注将自车状态(ego-vehicle status)作为其唯一的学习目标,缺乏面向规划的理解能力,这限制了整体决策过程的鲁棒性。为此华理和SenseAuto的团队提出了 DistillDrive,一种基于知识蒸馏的端到端自动驾驶模型,该模型利用多样化的实例模仿(diversified instance imitation)来增强多模态运动特征学习。具体而言,采用一种基于结构化场景表示的规划模型作为教师模型(teacher model),利用其多样化的规划实例作为端到端模型的多目标学习目标。此外引入强化学习(reinforcement learning)来优化状态到决策的映射关系,同时利用生成式建模(generative modeling)来构建面向规划的实例,促进潜在空间内的复杂交互。本文在 nuScenes 和 NAVSIM 数据集上验证了DistillDrive模型,相较于基线模型,碰撞率降低了50%且闭环性能提升3个点。
- 论文链接:https://arxiv.org/abs/2508.05402
- 代码链接:https://github.com/YuruiAI/DistillDrive

简介
端到端自动驾驶近年来取得了显著进展,这主要得益于感知技术和模仿学习的进步。如图1(b)所示,该方法直接从复杂的传感器输入学习到最终的规划和决策,消除了中间的数据传递和目标表征过程,从而显著减少了级联误差。然而在闭环实验中,图1(a)中感知分离的规划模型表现优于端到端模型,这得益于其对比学习和仿真实验。尽管如此,它在感知和规划之间面临着耦合障碍。

与具有唯一解的感知任务不同,规划任务存在多种不确定的可行解,而依赖单一专家轨迹会限制模型学习多样化表征的能力。为了解决规划目标有限的问题,SparseDrive将单模态规划特征融入多模态位置嵌入中,从而实现多样化规划。同时,VADV2将规划任务抽象为概率动作分布,利用规划词汇与场景标记之间的交互来采样单一动作。DiffusionDrive提出了一种带有多模锚点和扩散时间表的截断扩散策略,使模型能够从高斯分布中学习去噪。尽管上述方法提供了一定的规划多样性,但仍存在几个问题:(a) 单模态学习:其目标仍然是来自日志回放的专家轨迹,缺乏对多模态特征和运动属性的多样化监督。(b) 状态泄露:模型过度依赖自车状态,且缺乏状态到决策空间的优化。(c) 运动引导缺失:上述方法缺乏面向规划的特征建模,无法以运动引导的方式促进实例间的交互。
为了解决上述问题,我们使用一个多模态解耦的规划模型作为教师模型,通过知识蒸馏来监督端到端模型中的运动引导实例交互,如图1(c)所示。与现有方法(这些方法侧重于仿真环境,且缺乏对潜在空间多模态特征的监督)不同,我们有效地实现了多模态模仿。同时,我们采用强化学习来提升对运动状态的综合理解,并利用生成模型来增强在潜在空间中与专家轨迹的运动分布特征的交互。
为了有效提升端到端模型的规划性能,并应对模仿学习在捕捉规划空间复杂性方面的挑战,我们提出了 DistillDrive,一种基于同构异源规划模型蒸馏的端到端多模态自动驾驶框架。总体而言,我们设计了一种知识蒸馏架构,利用解耦的规划模型来高效地监督端到端模型中的多模态规划学习。为了明确自车状态的作用,我们使用逆强化学习和Q学习来增强状态到决策关系的构建。最后,通过生成式建模实现运动引导的跨域特征交互,从而增强实例向规划空间的抽象。
我们的主要贡献总结如下:
- 我们提出了一种用于端到端规划中多模态实例监督的蒸馏架构,解决了单一目标模仿学习的局限性。
- 我们引入了基于强化学习的状态优化,以增强对状态到决策空间的理解,并缓解自车运动状态泄露问题。
- 为了解决缺失的运动引导属性,我们使用生成模型来实现专家轨迹与实例特征之间的分布级交互。
- 我们在nuScenes和NAVSIM数据集上进行了开环和闭环规划实验,相较于基线模型,实现了碰撞率降低50%以及EP和PDMS指标均提升3个百分点。
相关工作回顾
端到端规划
随着端到端概念的流行,自动驾驶技术正在迅速发展。已有研究通过使用Transformer进行规划模型中的时空特征学习,取得了令人印象深刻的结果。值得注意的是,UniAD首次利用注意力机制集成了检测、跟踪和建图,实现了强大的规划性能;而VAD则简化了这些步骤,通过向量化表示在准确性和性能之间取得了平衡。
与之前将规划建模为连续轨迹学习的方法不同,研究将运动空间抽象为概率决策空间。尽管SparseDrive提出了一种稀疏查询中心范式用于端到端自动驾驶,并取得了强大的性能,但研究表明,现有的端到端规划模型过度依赖自车状态,缺乏与其他智能体的交互。为了解决这个问题,我们设计了一种端到端模型,通过增强分布交互并利用专家轨迹进行实例级表征的监督,来提供运动先验。
知识蒸馏
知识蒸馏(KD)允许一个紧凑的学生模型模仿一个复杂教师模型的行为,从而继承其嵌入的知识。Hao等人提出了一种跨架构方法,将中间特征对齐到logits空间,以从异构模型中蒸馏知识。同时,也有方法通过多阶段自适应蒸馏和双路径机制来增强模型的表达能力。
在自动驾驶规划领域,Roach设计了一个基于强化学习(RL)的专家来指导模仿学习(IL)智能体学习状态空间表征。在PlanKD中,规划特征被蒸馏,轨迹和注意力机制被用来提取特征中心。而Hydra-MDP则通过一个基于规则的教师来监督多模态轨迹的生成。
相比之下,我们的工作通过知识蒸馏来解决跨模型的运动特征学习问题,从而应对单一目标模仿学习的局限性。
强化学习在规划中的应用
随着A3C智能体在CARLA中应用强化学习,该领域涌现出越来越多的研究。Roach训练了一个强化学习专家,将鸟瞰图图像转换为连续的低级动作,在CARLA中设定了性能基准。强化学习方法已被应用于车道保持和车道变换等任务,使策略能够通过闭环训练从奖励中学习。
一些方法结合了强化学习和模仿学习,以标准化Q学习并防止分布外值的过度估计。逆强化学习(Inverse Reinforcement Learning, IRL)从专家演示中推断成本函数,从而避免了手动指定。
在实践中,通过结合模仿学习和强化学习来实现智能体目标,使用软演员-评论家(Soft Actor-Critic)方法交替训练评论家和演员。
在我们的工作中,我们结合了Q学习和逆强化学习方法,以提升模型对状态到决策空间的理解,从而增强其在开环和闭环场景下的性能。
算法详解
如图2所示,我们利用一种基于知识蒸馏的规划模型,通过基于规划的信息来增强多模态特征交互。

基于逆强化学习的教师模型


运动引导的学生模型



知识蒸馏

训练目标

实验结果分析
数据集与指标
为了评估端到端规划模型的性能,我们在 nuScenes 数据集上进行了对比和消融实验。该数据集包含了来自波士顿和新加坡的1000个驾驶场景,每个场景持续20秒,以2Hz的频率提供摄像头、激光雷达和标注数据。然而,大多数场景涉及匀速运动,且该数据集主要针对感知任务,使用开环评估进行规划,这使其非常适合性能评估。
NAVSIM 数据集由 nuPlan精简而来,使用八个摄像头实现360°覆盖,并融合了来自五个传感器的激光雷达点云以增强感知能力。该数据集以2Hz提供高质量的标注,包括高精地图和物体边界框,为自动驾驶规划任务提供了可靠的数据。最后,该数据集专注于由驾驶意图动态变化驱动的复杂场景,同时排除了静止或匀速行驶等简单情况,以更好地模拟复杂交通环境中的自动驾驶规划。
实验设置

结果与分析
nuScenes 数据集上的规划性能。我们在 nuScenes 数据集上验证了所提出的 DistillDrive 的规划性能,结果如表1所示。教师模型在所有模型中表现最佳,验证了强化学习在状态空间优化方面的有效性,但它在现实世界中遇到了耦合障碍。因此,我们提出了一种知识蒸馏方案来增强端到端的多模态规划学习,并在表中验证了我们模型的性能。与基于激光雷达和基于摄像头的模型相比,我们的模型均表现出色,相较于 SparseDrive,碰撞率降低了50%,L2误差减少了10%。这表明,多样化的模仿学习有效地增强了不同模态实例之间的区分度。

NAVSIM 数据集上的规划性能。表1侧重于评估有限的开环性能,而表2则利用NAVSIM的数据驱动、非反应式模拟提供了全面的评估。结果显示,教师模型在性能上表现出色,证实了其设计的有效性。通过有效的多模态实例模仿,我们的端到端学生模型在PDMS指标上比Transfuser高出2.5%,在DAC和EP上也有显著提升。DistillDrive也超越了基于规则的蒸馏方法,并取得了显著的性能提升。甚至在NC和TTC指标上,它也超过了教师模型,这表明多模态蒸馏不仅能传递教师的知识,还能实现显著的突破。

nuScenes 数据集上的感知性能。为了评估我们的规划模型,表3和表4依次验证了其检测、跟踪和建图性能。由于没有设计额外的感知模块,整体性能与SparseDrive相似。然而,我们通过生成式建模的贡献,在IDS等指标上实现了提升。

定性可视化。图4在nuScenes数据集上可视化了规划模型在三种场景(右转、左转、直行)下的性能。右转案例显示出更大的轨迹多样性,突显了多模态实例蒸馏的作用。在左转案例中,由于有效的基于强化学习的状态优化,我们的模型产生了更平滑、更自然的轨迹。直行案例则显示出更丰富的轨迹候选集,展示了增强的规划能力。在图5中,我们验证了模型在NAVSIM数据集上的规划性能。在第一个案例中,我们的模型轨迹与专家轨迹高度吻合,表现出更好的完成度。在第二个案例中,当Transfuser因刹车而失败时,我们的模型成功完成了超车,有效处理了拥堵情况。



消融实验
强化学习优化的影响。在表5中,我们应用强化学习来精炼模型,增强其对状态和决策空间的理解。比较第二到第四行表明,适当的监督和奖励可以增强轨迹规划,而第五行的动作选择进一步提升了性能。最后,所提出的线性加权强化学习动态地整合了各种奖励值。该方法实现了碰撞率20%的降低和对齐L2误差6%的减少,证明了其在优化规划准确性和安全性方面的有效性。

DistillDrive模块的消融研究。为了验证设计的有效性,我们在表6中评估了端到端规划模型的核心模块。在第二到第五行,单独评估表明,知识蒸馏(KD)通过多模态监督显著增强了模型的表达能力,而生成模型则通过分布级交互从运动学习中受益。然而,强化学习(RL)由于受限的状态空间表示而面临挑战。同时,结果表明,组合这些组件能显著提升模型性能。KD作为核心元素,增强了多模态运动模仿,而RL通过状态到决策的监督,提升了对分布外数据的泛化能力,提高了决策的稳定性和鲁棒性。进一步的闭环实验结果包含在附录中。


结论与未来工作
为了提升端到端模型的规划性能,我们实现了一种多样化的实例模仿学习架构,以监督多模态特征的学习。强化学习和生成式建模增强了运动引导的特征交互,从而在nuScenes和NAVSIM数据集上取得了显著的改进。
在未来的工作中,我们计划将世界模型与语言模型相结合,以提升规划性能。我们将采用更有效的强化学习方法,以更好地理解场景的语义几何空间与决策规划空间之间的关系,从而提升模型的闭环性能。

发表回复