2024-06-24 端到端没有数据怎么办？通过潜在世界模型增强端到端自动驾驶（中科院最新）

端到端自动驾驶已经引起了广泛关注。当前的端到端方法在很大程度上依赖于诸如检测、跟踪和地图分割等感知任务的监督，以辅助学习场景表示。然而，这些方法需要大量的标注，阻碍了数据的可扩展性。为了应对这一挑战，我们提出了一种新颖的自监督方法，以增强端到端驾驶，而无需使用昂贵的标签。具体来说，我们的框架LAW使用潜在世界模型来基于预测的自身动作和当前帧的潜在特征来预测未来的潜在特征。这些预测的潜在特征由未来实际观察到的特征进行监督。这种监督同时优化了潜在特征学习和动作预测，从而极大地提高了驾驶性能。因此，我们的方法在无需昂贵标注的情况下，在开放环和闭环基准测试中均达到了最先进的性能。

领域背景介绍

端到端自动驾驶因其相对于传统方法的潜在优势而日益受到认可。传统规划器无法访问原始传感器数据，这会导致信息丢失和误差累积。相比之下，端到端规划器处理传感器数据以直接输出规划决策，这已被视为一个值得进一步探索的有前景的领域。

尽管大多数端到端自动驾驶方法以端到端的方式运行，但它们利用了各种辅助任务，如检测、跟踪和地图分割。这些辅助任务有助于模型学习更好的场景表示。然而，它们需要大量的手动标注，这既昂贵又限制了数据的可扩展性。相比之下，少数端到端方法没有采用感知任务，仅从记录的驾驶视频和轨迹中学习。这些方法可以利用大量可用数据，使其成为一个有前景的方向。然而，仅使用来自轨迹的有限指导使得网络难以学习有效的场景表示并实现最佳驾驶性能。

为了解决这个问题，如图1所示，提出了通过自监督学习来增强端到端驾驶。传统的自监督方法在图像处理中通常专注于静态的、单帧的图像。然而，自动驾驶涉及到一系列动态的输入，因此有效利用时间数据至关重要。驾驶的一个关键技能是基于当前环境预测未来状况。受此启发，我们提出了一个自监督任务，旨在预测潜在特征。开发了一个潜在世界模型，用于基于当前状态和自车动作预测未来状态，其中状态被表示为网络内的潜在场景特征。在训练过程中，提取未来帧的潜在特征来监督来自潜在世界模型的预测潜在特征。因此，我们共同优化了当前帧的潜在特征学习和轨迹预测。

此外，我们建立了一个简单但强大的规划器来提取视图相关的潜在特征，并作为所提出的潜在世界模型的测试平台。与以往方法不同，这个规划器没有包含临时模块和与感知相关的分支，这使得潜在世界模型的内部工作原理更加易于理解。给定这个规划器和潜在世界模型，我们有了副产品。由于潜在世界模型能够预测未来视图的潜在特征，可以跳过未来帧中某些视图的特征提取过程，并使用这些视图的预测未来作为替代。通过跳过某些视图的特征提取，提高了整个流程的效率。为了确定应该替换哪些视图，还提出了一个视图选择策略。结合视图潜在替代，该策略以最小的性能损失显著加快了整个流程。

总结来说，主要贡献如下：

提出了一个用于自监督学习的潜在世界模型（LAtent World model），它增强了端到端自动驾驶框架的训练。
基于潜在世界模型，进一步提出了一个视图选择策略，该策略在几乎不损失性能的情况下大大加快了整个流程。
LAW框架在无需手动标注的情况下，在开放环和封闭环基准测试中均取得了最先进的结果。

主要方法

整体方法论分为三个部分。首先开发了一个强大且通用的端到端规划器来提取潜在变量。接下来，基于这个端到端规划器，引入了一个世界模型来预测潜在变量。最后，由于预测的潜在变量可以替代一些不重要的潜在变量，因此提出了一种视图选择方法。

1）带有潜在变量提取的端到端规划器

在训练过程中，使用L1损失来衡量预测waypoint与真实waypoint之间的差异，表示为：

所提出的端到端规划器简单有效地提取了潜在特征，这为潜在世界模型提供了一个很好的测试平台。

2）潜在预测的世界模型

我们通过潜在世界模型获得了第t+1帧的预测视图潜在变量Pt+1：

潜在世界模型的网络架构是一个Transformer解码器，由两个block组成。每个block包含一个自注意力机制和FFN模块。自注意力是在视图维度上进行的。在训练过程中，使用端到端规划器提取第t+1帧的观测视图潜在变量Vt+1。Vt+1通过L2损失函数作为Pt+1的监督：

3）通过潜在替代的视图选择

这里提出了一种视图选择方法，这要归功于世界模型预测的有效视图潜在变量。该方法以多视图视频作为输入，动态选择一些信息丰富的视图来提取特征。其他视图则不被处理，它们对应的视图潜在变量由世界模型预测的视图潜在变量所替代。如图3所示，这一节包含三个组件。首先，给定几种潜在的视图选择策略，选择奖励预测组件会预测这些策略的奖励，并选择奖励最高的策略。然后，带选定视图的规划器在给定的选定视图下预测轨迹。在训练过程中，我们提出了一个选择奖励标注模块，该模块为每个选择策略分配一个奖励标签。