2026-02-03 小鹏Drive-JEPA:结合JEPA的世界模型端到端框架,最新SOTA!

原文链接:https://mp.weixin.qq.com/s/pCE_QmRbukqQZAXqMTuv9A

端到端自动驾驶正日益借助自监督视频预训练来学习可迁移的规划表示。然而,迄今为止,为场景理解预训练视频世界模型仅带来了有限的性能提升。这一局限性因驾驶本身的固有模糊性而加剧:每个场景通常仅提供单一的人类轨迹,使得学习多模态行为变得困难。在本文中,我们提出Drive-JEPA,这是一个将视频联合嵌入预测架构(V-JEPA)与多模态轨迹蒸馏相结合的端到端驾驶框架。首先将V-JEPA适配于端到端驾驶任务,在大规模驾驶视频上预训练视觉Transformer(ViT)编码器,以生成与轨迹规划对齐的预测表示。其次入了一种proposal-centric规划器,该规划器在人类轨迹之外还蒸馏了仿真器生成的多样化轨迹,并采用动量感知选择机制以促进稳定且安全的驾驶行为。

在NAVSIM基准测试中,结合简单Transformer解码器的V-JEPA表示在perception-free比现有方法高出3个PDMS。完整的Drive-JEPA框架在v1上达到93.3 PDMS,在v2上达到87.8 EPDMS(扩展预测驾驶模型分数),创下了新的SOTA。

  • 论文名称:Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
  • 论文链接:https://arxiv.org/abs/2601.22032
  • 开源链接:https://github.com/linhanwang/Drive-JEPA

一、背景回顾

端到端自动驾驶已成为一种极具前景的范式,其通过统一的神经模型直接将原始传感器观测映射到驾驶动作。与传统模块化流水线中使用手工设计的中间表示不同,端到端方法旨在通过直接从大量人类驾驶数据中学习,减少信息损失并提高可扩展性。

近年来,端到端自动驾驶愈发倾向于利用自监督视频预训练来学习可迁移的规划表示。然而迄今为止,为场景理解预训练视频世界模型仅带来了有限的性能提升。该方向上的现有方法大致可分为两类。第一类是视频生成类方法,例如VaVAM和Epona,它们通过重建或生成视频来学习表示,然后将其迁移到规划任务中,但这种像素级目标会带来巨大的计算开销,且可能过度强调与决策无关的视觉细节。第二类为降低成本,latent世界模型会预测紧凑的特征动态(例如,LAW通过特征T预测特征T+1,而World4Drive进一步引入预训练基础模型以丰富 latent target)。然而,这些隐方法通常仅用作辅助目标,且尚未展现出通过扩大预训练规模所带来的显著优势。

另一方面,端到端驾驶面临着监督瓶颈:尽管驾驶的未来轨迹本质上具有多模态特性,但每个场景通常仅能提供单一的人类轨迹。现有研究通过离散或连续的表述方式生成多模态轨迹来解决这一问题。离散方法(如VAD v2和Hydra-MDP)将轨迹聚类为固定词汇表,并预测反映安全性和舒适性的分数;然而,其表达能力从根本上受到锚点轨迹的覆盖范围和质量的限制,导致在未覆盖的场景中泛化性能较差。此外,基于扩散的方法(包括DiffusionDrive和GoalFlow)通过迭代采样对多模态轨迹分布进行建模,展现出了强大的生成能力。尽管如此,这些方法仍然受到每个场景单一人类轨迹监督的限制,本质上制约了所学习行为的多样性。

本文提出了Drive-JEPA,这是一种端到端自动驾驶框架,能够以统一的方式解决上述两个瓶颈。首先将V-JEPA适配到自动驾驶领域,从大规模原始视频中学习与规划对齐的预测表示,其迁移性能优于现有的世界模型预训练方法。其次,我们引入多模态轨迹蒸馏技术,将模拟器中的知识蒸馏到proposal-centric规划器中,提供超越单一人类轨迹的多样化监督,从而实现更安全的多模态决策。

Drive-JEPA的框架包含三个组件:驾驶视频预训练、多模态轨迹蒸馏和动量感知轨迹选择。在第一个模块中,我们构建了大规模驾驶视频数据集,并利用V-JEPA预训练基于ViT的视觉编码器,该编码器通过预测未来 latent并有效防止模式崩溃来学习预测表示。在第二个模块中,基于航点锚定的proposal生成利用可变形注意力聚合轨迹航点处的鸟瞰图(BEV)特征,并迭代优化proposal。为了提高多样性,我们同时利用人类轨迹和满足安全性与舒适性约束的模拟器生成多模态轨迹对proposal进行监督,从而实现从模拟器中有效蒸馏知识。最后,选择模块通过预测碰撞风险、交通规则合规性和舒适性为所有候选轨迹分配分数,并进一步引入动量感知惩罚项以减少帧间轨迹畸变。

我们在NAVSIM v1、NAVSIM v2和Bench2Drive上对Drive-JEPA进行了验证。Drive-JEPA在NAVSIM v1上达到93.3 PDMS,在NAVSIM v2上达到87.8 EPDMS,创下了新的SOTA。值得注意的是,仅使用单目前视摄像头和轻量级Transformer规划器,本文的V-JEPA预训练模型在perception-free设置下比现有工作高出3个PDMS,突显了V-JEPA预训练在规划任务中的有效性。在Bench2Drive上,多模态轨迹蒸馏持续提升驾驶质量,证明了多样化监督在生成安全、多模态轨迹方面的优势。

本文的贡献可总结如下:

  1. 将V-JEPA预训练引入端到端自动驾驶,同时提升了有感知和无感知设置下的性能;
  2. 提出了一种新颖的多模态轨迹监督方法,将模拟器知识蒸馏到proposal-centric框架中,生成多样化的多模态轨迹;
  3. 设计了动量感知轨迹选择模块,提升了驾驶舒适性;
  4. 在NAVSIM v1和NAVSIM v2上达到了新的SOTA。此外即使不依赖感知标注,Drive-JEPA在NAVSIM上仍取得了优异的性能。

二、算法详解

预备知识

驾驶视频预训练:

为通过自监督视频预训练增强规划表示能力,现有研究探索了像素空间驾驶世界模型和潜在世界模型。前者面临计算开销大的问题,后者则难以扩展,因此我们提出在大规模驾驶视频预训练中采用V-JEPA。

驾驶视频数据集构建与扩展:本文使用V-JEPA 2发布的参数初始化ViT编码器。为缩小domain gap,Drive-JEPA从三个公开数据集构建大规模驾驶视频数据集:CoVLA、DrivingDojo和OpenScene。所有视频均由前视相机拍摄,处理为分辨率512×256、帧率2Hz的8帧片段。

我们在该构建数据集上以自监督方式采用V-JEPA目标训练ViT编码器。如表1所示,得益于潜在预测任务的高效性和有效的模式崩溃预防,我们成功将预训练规模扩展至208小时,且计算成本低于现有方法。

Waypoint-anchored proposal生成

多模态轨迹蒸馏

动量感知轨迹选择

损失函数

三、实验结果分析

主要结果

NAVSIM v1上的结果:如表2所示,与现有方法相比,Drive-JEPA使用ResNet34主干网络时取得了最佳PDMS。使用ViT/L时,Drive-JEPA仅次于采用先进数据增强的DriveSuprim。值得注意的是,在保持高安全指标(如NC、DAC和TTC)的同时,Drive-JEPA实现了最佳自车进度(EP),呈现出果断的驾驶风格。

perception-free端到端自动驾驶:Drive-JEPA在perception-free设置下评估了方法,使用简单解码器和预训练ViT编码器。如表2所示,无论主干网络规模如何,我们的方法均大幅超越现有方法,PDMS甚至接近依赖感知标注的最先进方法,突显了V-JEPA预训练的优势。

NAVSIM v2上的结果:NAVSIM v2的指标比v1更复杂,但我们的方法仍优于所有现有方法。现有方法在扩展舒适性(EC)上表现不佳,而我们的方法在该指标上表现出色,同时在安全指标、交通规则合规性和自车进度上也取得了良好结果。

Bench2Drive上的结果:Bench2Drive在闭环仿真中评估自主智能体。Drive-JEPA取得了最佳驾驶分数(DS),且效率极具竞争力。与另一种proposal-centric方法iPad相比,Drive-JEPA的驾驶分数高出4分,验证了多模态轨迹蒸馏的有效性。

消融实验

驾驶视频预训练的消融实验:使用相同的简单解码器,搭配主流预训练方法训练的编码器。如表7所示,V-JEPA 2在这些方法中表现最佳,MAE和DepthAnything无法收敛。这突显了V-JEPA目标在视频预训练中的优势。本文中,我们构建了大规模驾驶视频数据集,基于该数据集和V-JEPA目标训练的ViT/L编码器进一步提升了性能,比最先进的Epona高出3个PDMS。

四、结论

Drive-JEPA是一种新的端到端驾驶框架,它将V-JEPA视频预训练与多模态轨迹蒸馏相结合,以缓解模仿学习中的模式崩溃问题。在大规模驾驶视频上预训练视觉Transformer(ViT)编码器,能够得到强大的规划表示,使简单解码器在perception-free设置下也能实现具有竞争力的性能。通过蒸馏模拟器引导的伪教师轨迹,proposal的多样性得到提升,而动量感知选择机制进一步增强了时间稳定性和驾驶舒适性。Drive-JEPA在NAVSIM v1/v2基准测试中取得了最先进的结果,并在Bench2Drive上提升了闭环性能。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论