2025-10-17 世界模型VLA！DriveVLA-W0：7000万数据解锁自动驾驶VLA Scaling（中科院&引望）

原文链接：https://mp.weixin.qq.com/s/ui5in3aP1hg90AHEKoTVRA

中科院和华为引望最新推出了一篇名为DriveVLA-W0的训练范式，难得的探索自动驾驶scaling law的VLA工作。DriveVLA-W0的团队认为VLA模型受限于“监督不足”的问题：模型的庞大容量仅由稀疏、低维的动作信号监督，导致其大部分表征能力未被充分利用。为解决这一问题提出了 — DriveVLA-W0训练范式，该范式通过世界建模（world modeling）任务预测未来图像，生成密集的自监督信号，促使模型学习驾驶环境的底层动态规律。

为验证DriveVLA-W0的通用性，本文在两种主流VLA架构上展开验证：针对采用离散视觉token的VLA模型，设计自回归世界模型；针对基于连续视觉特征的VLA模型，设计扩散世界模型。基于世界建模学习到的丰富表征，本文进一步引入轻量级动作专家（action expert），以解决实时部署中的推理耗时问题。

在NAVSIM v1/v2基准上及公司内部70M的私有数据集上开展的大量实验表明，DriveVLA-W0显著优于BEV和VLA的baseline。关键在于，该范式能放大data scaling law——随着训练数据集规模增大，模型性能提升速度会加快。

论文名称：DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving
论文链接：https://arxiv.org/abs/2510.12796
开源链接：https://github.com/BraveGroup/DriveVLA-W0

背景回顾

Scaling laws为实现更具通用性的驾驶智能提供了颇具吸引力的路径，人们期望利用PB级驾驶数据训练强大的基础模型。当前领域内存在两种主流范式：

一种是围绕BEV表征构建的专用模型。这类模型基于几何先验，虽在驾驶特定任务中表现有效，但难以利用非驾驶数据集，且其相对紧凑的架构可能限制大规模数据的扩展潜力。
另一种是新兴的视觉-语言-动作（VLA）模型，作为颇具潜力的替代方案，VLA模型借助在互联网规模数据上预训练的大规模视觉-语言模型，具备更大的模型规模与更强的内在扩展潜力。

然而，这种扩展潜力在很大程度上尚未实现，核心挑战在于：VLA模型的庞大规模与极度稀疏的监督信号不匹配。标准范式中，VLM模型仅通过专家动作进行微调，需将高维感知输入映射为稀疏的低维控制信号（如路径点），由此产生严重的“监督不足”问题。该问题导致模型无法学习丰富的世界表征，且这一根本性局限无法通过单纯增加“仅动作监督”训练数据的体量来解决。事实上，本文观察到：在缺乏充分监督的情况下，大型VLA模型的性能甚至可能不及规模更小的专用BEV模型。

为解决“监督不足”问题，本文提出一种新的训练范式——将世界建模作为强自监督方式，补充稀疏的动作信号。通过让模型预测未来图像，在每个时间步生成密集且丰富的监督信号，该目标迫使模型学习环境的底层动态规律，构建丰富的预测性世界表征。

为验证该方法的有效性，本文将其应用于两种主流VLA架构家族（主要区别在于视觉表征方式：离散token vs连续特征）：

对于以离散视觉token表示图像的VLA模型，世界建模是自然扩展方向，本文设计自回归世界模型，预测未来图像的离散视觉token序列；
对于基于连续特征的VLA模型，由于缺乏视觉词汇表，直接进行“下一个token预测”不可行，因此本文引入扩散世界模型，基于当前帧生成的视觉与动作特征，生成未来图像像素。

本文在多数据规模（从学术基准数据集到大规模内部数据集）上验证世界建模方法的有效性：

首先，在NAVSIM上的扩展实验表明，世界建模对模型泛化能力至关重要——它能让模型学习鲁棒的视觉模式，而非过拟合于数据集特定的动作模式；
为研究真实的工业界scaling law，本文利用包含7000万帧的大规模内部数据集（如图1所示），验证本文的核心假设：世界建模能放大数据缩放律。这一优势源于未来帧预测提供的密集视觉监督，形成“仅动作监督”数据规模扩大也无法弥补的实质性差距；
最后，为实现车端部署，本文引入基于MoE的轻量级动作专家。该专家将动作生成与大型VLA backbone解耦，使推理延迟降至base模型的63.1%，并构建了可大规模研究不同动作解码器的高效实验平台。研究发现，随着数据规模从“小”到“大”，模型性能趋势出现显著反转：在小规模数据集上，复杂的流匹配（flow-matching）解码器通常更具优势；但在大规模数据下，更简单的自回归解码器反而成为最优选择。

本文的主要贡献包括：

指出“监督不足”是VLA scaling的关键瓶颈，提出DriveVLA-W0范式——通过世界建模从视觉预测中获取密集自监督学习信号；
实验表明世界建模具有两大扩展优势：一是通过学习可迁移的视觉表征，提升模型在不同动作分布领域的泛化能力；二是在7000万帧数据集上，能放大data scaling law，实现“仅动作监督”扩展无法达到的效果。
引入基于MoE的轻量级动作专家，将推理延迟降至基准模型的63.1%。以该专家为实验平台，发现动作解码器的一个明显的scaling law反转：在大规模数据下，更简单的自回归模型超越复杂的流匹配模型，与小规模数据集上的性能趋势相反。

DriveVLA-W0算法详解

本文提出的方法分为三个关键步骤：首先构建VLA基准模型（VLA Baseline），以凸显“仅动作稀疏监督”面临的挑战；其次为该基准模型引入“世界建模”（World Modeling）模块——这是本文的核心贡献，用于提供密集的自监督信号；在此基础上，为解决推理效率瓶颈，引入基于混合专家（Mixture-of-Experts, MoE）的轻量级动作专家（Action Expert），确保性能强大的模型能满足实时部署需求。

VLA基准模型

世界建模

动作专家

MoE架构：尽管大型VLA backbone的表征学习方面表现出色，但其庞大的规模对实时控制而言过于笨重。为解决这一问题，本文引入轻量级动作专家（参数规模5亿），与主VLA专家（完整VLA backbone ）共同构成混合专家（MoE）架构。动作专家与VLA专家采用相似的Transformer块结构，但隐藏层维度显著更小。这种架构相似性使得两者可通过“联合注意力”（Joint Attention）机制实现深度高效的信息融合（图3（a））。

实验结果

论文主实验结果：

世界建模通过data scaling解锁了模型的泛化：

内部数据上的实验结果：

Action experts的实验结果：

消融实验：

结论

在本研究中，本文确定“监督不足”（supervision deficit）是阻碍VLA在自动驾驶领域实现扩展性的根本性瓶颈。为此，我们提出了DriveVLA-W0范式，该范式通过将预测未来图像作为密集的自监督目标来解决这一问题，且适用于基于VQ（向量量化）和基于ViT（视觉Transformer）的两种架构。

大量实验结果表明，该方法不仅在数据扩展性和泛化性上显著优于基准模型，还揭示了一个极具价值的现象：随着数据规模扩大，动作解码器的性能趋势会出现明显反转，最终更简单的自回归模型会展现出更优性能。

综上，我们的研究结果表明，采用密集的预测性世界建模（predictive world modeling）是充分释放大规模数据潜力、实现更具通用性驾驶智能的关键一步。

2025-10-17 世界模型VLA！DriveVLA-W0：7000万数据解锁自动驾驶VLA Scaling（中科院&引望）

发表回复取消回复

Categories

Archives

2025-10-17 世界模型VLA！DriveVLA-W0：7000万数据解锁自动驾驶VLA Scaling（中科院&引望）

发表回复 取消回复

Categories

Archives

发表回复取消回复