2025-06-10 Waymo S4-Driver：告别监督，海量无标注数据解锁3D时空推理能力~

原文链接：https://mp.weixin.qq.com/s/eg35bEIrXwvXOZ_2jZQY8g

虽然端到端自动驾驶，近两年被炒的火热，但是其实探索端到端自动驾驶的历史可以追溯到20世纪80年代。当时的运动规划模型直接根据原始传感器输入预测控制信号，不过由于鲁棒性的问题，早期的一些尝试，在复杂的城市环境难以泛化。最近风靡一时的多模态大语言模型（MLLMs）恰好具有强大的泛化能力，将这两者结合，似乎成了势不可挡的趋势。然而，将MLLMs直接应用于端到端运动规划很难发挥其强大的视觉理解和推理能力，因为运动规划和MLLM预训练任务之间存在显著差异，导致规划性能较差。

为了缩小这一差距，如图1b所示，以往的方法使用多任务学习，将多种感知和预测任务纳入训练和推理中，或者采用监督感知预训练，利用预训练的自动驾驶感知模型作为视觉token。然而，人类标注成为了这两种策略的瓶颈。相比之下，纯自监督方法虽然能够直接从传感器输入学习并利用大量未标注的驾驶数据，但通常表现不如现有的最先进方法。

论文题目: S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation

论文链接：https://arxiv.org/pdf/2505.24139

首先，作者确定了以下两个主要障碍：

非最优的表达形式：MLLMs通常为2D图像平面中的任务设计。这种图像空间表示限制了它们从多视图图像组合中进行3D推理的能力。
数据规模有限：尽管nuScenes是端到端规划非常广泛的数据集，但它也仅包含不到1k个序列，缺乏驾驶行为的多样性。这种有限的规模导致在微调具有十亿参数规模的MLLMs时出现严重的过拟合问题。

在本文中，作者提出了S4-Driver，这是一个简单而有效的可扩展自监督运动规划方法，具有时空视觉表示。基于通用多模态大语言模型，作者直接从相机图像预测自身车辆的航点，消除了对中间感知和预测任务的需求，从而促进了利用大量未标注驾驶数据进行模型预训练的规模化（图1a）。为了解决非最优的表达形式的障碍，作者提出了一种新颖的稀疏体积表示，能够聚合来自多视图和多帧图像的视觉信息，提升了模型在运动规划上的3D时空推理能力，并无损的保留了MLLMs预训练视觉嵌入中的世界知识。

其次，为了严格评估法并提供足够的训练数据，作者还利用了大规模的WOMD-Planning-ADE benchmark，并结合了内部相机传感器数据。该 benchmark 大约比nuScenes大100倍，因此它可以作为一个更全面的基准。

相关工作

多模态大语言模型 (MLLMs)

多模态大语言模型（MLLMs）同时包含语言和图像模态，以往的研究主要集中在将强大的大型语言模型（LLMs）与先进的图像编码器（例如LLaVA、PaLI、PaliGemma以及InstructBLIP）进行整合。通过指令微调或多模态微调，这些模型在多模态理解和推理方面展现出了不错的性能。当前的发展趋势是利用越来越大的多模态数据集来进一步提升它们在复杂感知和泛化任务中的能力。然而，尽管这些模型具有诸多优势，但它们在3D空间推理方面仍存在局限性，这给它们在自动驾驶领域的应用带来了一些挑战。

端到端自动驾驶

为了减少传统的感知、预测、规划的各模块间的信息丢失和误差累积，端到端驾驶系统利用统一的模型直接从原始传感器输入预测自身车辆未来的航点或控制信号。尽管这些系统优先考虑规划，但它们通常仍会整合感知和预测模块，还是需要对每个模块进行明确的监督。尽管一些早期的工作已经探索了无需任何中间任务的纯运动规划，但由于建模能力有限，它们在复杂的城市场景中表现不佳。

自动驾驶中的 MLLMs

大型模型的卓越推理和泛化能力正是自动驾驶领域应用需要的能力。一些研究将驾驶场景转化为大型语言模型的文本提示，或者直接用视觉语言模型处理相机图像。然而，它们的潜力受到现有benchmark数据量的限制，仅允许进行部分微调。同时，闭环模拟器在为端到端任务提供逼真的传感器数据方面也面临挑战。因此，多任务联合微调或思维链推理（CoT）被广泛采用，来简化推理过程。另一种思路，一些工作整合了预训练的感知模型，以提取鸟瞰图特征，并将其作为视觉token发送给语言模型。最近，EMMA利用强大的Gemini进行自监督运动规划。此外，它们还开发了一组训练任务，包括运动规划、3D目标检测和道路元素识别，以及用于轨迹生成的一些推理过程。相比之下，作者的工作专注于在无需额外人类标签的情况下增强自监督运动规划。

具体工作

Vanilla PaLI as Planner

Hierarchical Planning with Meta-Decision

Scene Representation in 3D Space

高质量的运动规划需要对周围 3D 场景有一个稳健的理解，包括静态和动态元素。虽然传统上是通过单独的感知和预测模块来实现的，但作者的自监督端到端框架依赖于 MLLM 来隐式地学习这种理解，而无需明确的监督。然而，尽管具有强大的 2D 推理能力，MLLMs 在 3D 空间推理方面存在困难。

3D Visual Representation with Dense Volumes

Sparse Volume Representation

Local Feature Aggregation in 3D Space

Multi-frame Temporal Fusion

Voting for Planning via Multi-Decoding

Scaling to Large-scale Raw Driving Logs

自监督训练使得作者提出的S4-Driver能够扩展到大规模驾驶logs，无需人工标注。为了发挥基于MLLM的规划器的潜力，作者在内部数据集上对模型进行预训练。图3中的结果表明，由于大规模预训练，S4-Driver在具有挑战性的尾部行为上取得了显著的性能提升。

Waymo Open Motion Dataset for Planning

为了大规模训练和评估具有大型模型的规划算法，作者基于WOMD数据集设计了一个WOMD-Planning-ADE基准。

实验及结论

实验细节

模型和微调：作者的模型基于预训练的 PaLI3-5B 模型构建，该模型包括一个 ViT-G（2B）视觉编码器和一个 3B 的多模态编码器 – 解码器。作者冻结了 ViT 编码器，仅对插入的模块和多模态编码器 – 解码器进行微调。

数据集：作者在 nuScenes 和上述 WOMD-Planning-ADE 基准测试上评估 S4-Driver。

主要结果及对比

nuScenes 数据集：表 2 显示，S4-Driver 显著优于所有先前的算法。与现有方法不同，S4-Driver 不需要任何感知预训练或人类标注。这种自监督特性使得 S4-Driver 能够利用所有可获取的原始轨迹数据。

WOMD-Planning-ADE 基准测试：在表 3 中，作者主要将 S4-Driver 与原始 PaLI3-5B 基线和模块化算法 MotionLM 进行了比较。与原始 PaLI3-5B 相比，样本指标和行为指标之间存在显著差距。为了对比，作者还将最新运动预测算法 MotionLM（内部增强的复现版本）适应于规划任务，仅预测自身车辆的未来轨迹，并将高级指令注入模型中。因为它使用了高质量的对象、轨迹和道路图信号作为模型输入，所以直接与作者的端到端方法进行比较并不公平。然而，如表 3 所示，即使 S4-Driver 仅使用原始相机图像作为输入，与 MotionLM 相比，S4-Driver 仍然取得了有利的性能，尤其是在行为指标方面。

一些分析

定性结果：图 6 可视化了在多样化场景中的规划结果。作者提出的 S4-Driver 能够根据交通灯和道路车道确定未来自身行为，可以应对不同的光照条件。

元决策可靠性：图 7 展示了在 WOMDPlanning-ADE 验证集上元决策预测的准确性。在所有行为中，模型提供了可靠的元决策估计。在没有任何人类标注的情况下，这一初步预测可以简化数值运动规划的推导。

稀疏体积分布：作者在图 8 中可视化了沿 x 轴和 y 轴的自监督学习稀疏体积的分布。从后到前，稀疏体积集中在前面区域。从左到右，稀疏体积覆盖了所有区域，因为存在转弯场景，但大多数体积集中在中间区域。这些分布与人类驾驶经验一致。

消融实验

MLLM 输入：在表 5 中，作者分别对比分析了相机图像和历史自身状态的作用。作者假设 WOMD-Planning-ADE 涵盖了更多多样化的驾驶场景，包括许多比较大的速度和方向变化，这使得传感器数据变得重要。这也展示了 WOMDPlanning-ADE 在全面评估方面的优势。表 5 还显示，如果没有 MLLM 预训练，随机初始化的模型无法收敛。说明：尽管领域不同，S4Driver 仍可从大规模 MLLM 在一般任务上的预训练中受益。

MLLM 能力：除了在其他部分中使用的 PaLI3-5B 外，作者还针对运动规划使用了 PaLI2-3B。如表 4 所示，基于 PaLI2-3B 的 S4Driver 表现明显不如基于 PaLI3-5B 的 S4Driver。作者在 WOMD-Planning-ADE 上进行了两个不同规模的训练数据实验，即 20k（nuScenes 规模）对比 400k（完整 WOMD-Planning-ADE）。在有足够的训练数据时，差距尤为明显。这也证明了在大规模数据集上进行实验的必要性，这可以充分发挥强大 MLLMs 的潜力。

稀疏体积分辨率：表 6 显示了具有相同数量的稀疏体积（M = 6000）的不同稀疏体积分辨率的结果。与图 3 一致，低分辨率导致相对较差的性能，因为它限制了 3D 空间推理的精度。有趣的是，沿 z 轴的更高分辨率并不一定能提高模型性能，因为运动规划主要在 xy 平面上工作，而太低的稀疏比率往往会使优化不稳定。

结论和展望

本文介绍了 S4-Driver，这是一个利用多模态大语言模型（MLLMs）用于自动驾驶的可扩展自监督运动规划框架。为了增强 MLLMs 中的 3D 推理能力，作者提出了一种新颖的稀疏体积表示，通过聚合多视图和多帧图像输入，实现了有帮助的时空推理。此外，作者还为大规模 WOMD-Planning-ADE 基准设计了行为指标，用于做全面评估。S4-Driver 不需要任何人为标注的情况下，在 nuScenes 和 WOMD-Planning-ADE 基准测试中均取得了最先进的性能。这证明了自监督学习在端到端自动驾驶中的潜力。

未来的工作将持续探索应用其他强大的 MLLM 架构。将作者的大规模自监督学习方法与针对小规模标记数据的监督微调相结合，可能会进一步提升系统的性能和可解释性。

2025-06-10 Waymo S4-Driver：告别监督，海量无标注数据解锁3D时空推理能力~

发表回复取消回复

Categories

Archives

2025-06-10 Waymo S4-Driver：告别监督，海量无标注数据解锁3D时空推理能力~

发表回复 取消回复

Categories

Archives

发表回复取消回复