2025-10-17 世界模型VLA!DriveVLA-W0:7000万数据解锁自动驾驶VLA Scaling(中科院&引望)

原文链接:https://mp.weixin.qq.com/s/ui5in3aP1hg90AHEKoTVRA

中科院和华为引望最新推出了一篇名为DriveVLA-W0的训练范式,难得的探索自动驾驶scaling law的VLA工作。DriveVLA-W0的团队认为VLA模型受限于“监督不足”的问题:模型的庞大容量仅由稀疏、低维的动作信号监督,导致其大部分表征能力未被充分利用。为解决这一问题提出了 — DriveVLA-W0训练范式,该范式通过世界建模(world modeling)任务预测未来图像,生成密集的自监督信号,促使模型学习驾驶环境的底层动态规律。

为验证DriveVLA-W0的通用性,本文在两种主流VLA架构上展开验证:针对采用离散视觉token的VLA模型,设计自回归世界模型;针对基于连续视觉特征的VLA模型,设计扩散世界模型。基于世界建模学习到的丰富表征,本文进一步引入轻量级动作专家(action expert),以解决实时部署中的推理耗时问题。

在NAVSIM v1/v2基准上及公司内部70M的私有数据集上开展的大量实验表明,DriveVLA-W0显著优于BEV和VLA的baseline。关键在于,该范式能放大data scaling law——随着训练数据集规模增大,模型性能提升速度会加快。

  • 论文名称:DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2510.12796
  • 开源链接:https://github.com/BraveGroup/DriveVLA-W0

背景回顾

Scaling laws为实现更具通用性的驾驶智能提供了颇具吸引力的路径,人们期望利用PB级驾驶数据训练强大的基础模型。当前领域内存在两种主流范式:

  • 一种是围绕BEV表征构建的专用模型。这类模型基于几何先验,虽在驾驶特定任务中表现有效,但难以利用非驾驶数据集,且其相对紧凑的架构可能限制大规模数据的扩展潜力。
  • 另一种是新兴的视觉-语言-动作(VLA)模型,作为颇具潜力的替代方案,VLA模型借助在互联网规模数据上预训练的大规模视觉-语言模型,具备更大的模型规模与更强的内在扩展潜力。

然而,这种扩展潜力在很大程度上尚未实现,核心挑战在于:VLA模型的庞大规模与极度稀疏的监督信号不匹配。标准范式中,VLM模型仅通过专家动作进行微调,需将高维感知输入映射为稀疏的低维控制信号(如路径点),由此产生严重的“监督不足”问题。该问题导致模型无法学习丰富的世界表征,且这一根本性局限无法通过单纯增加“仅动作监督”训练数据的体量来解决。事实上,本文观察到:在缺乏充分监督的情况下,大型VLA模型的性能甚至可能不及规模更小的专用BEV模型。

为解决“监督不足”问题,本文提出一种新的训练范式——将世界建模作为强自监督方式,补充稀疏的动作信号。通过让模型预测未来图像,在每个时间步生成密集且丰富的监督信号,该目标迫使模型学习环境的底层动态规律,构建丰富的预测性世界表征。

为验证该方法的有效性,本文将其应用于两种主流VLA架构家族(主要区别在于视觉表征方式:离散token vs连续特征):

  1. 对于以离散视觉token表示图像的VLA模型,世界建模是自然扩展方向,本文设计自回归世界模型,预测未来图像的离散视觉token序列;
  2. 对于基于连续特征的VLA模型,由于缺乏视觉词汇表,直接进行“下一个token预测”不可行,因此本文引入扩散世界模型,基于当前帧生成的视觉与动作特征,生成未来图像像素。

本文在多数据规模(从学术基准数据集到大规模内部数据集)上验证世界建模方法的有效性:

  1. 首先,在NAVSIM上的扩展实验表明,世界建模对模型泛化能力至关重要——它能让模型学习鲁棒的视觉模式,而非过拟合于数据集特定的动作模式;
  2. 为研究真实的工业界scaling law,本文利用包含7000万帧的大规模内部数据集(如图1所示),验证本文的核心假设:世界建模能放大数据缩放律。这一优势源于未来帧预测提供的密集视觉监督,形成“仅动作监督”数据规模扩大也无法弥补的实质性差距;
  3. 最后,为实现车端部署,本文引入基于MoE的轻量级动作专家。该专家将动作生成与大型VLA backbone解耦,使推理延迟降至base模型的63.1%,并构建了可大规模研究不同动作解码器的高效实验平台。研究发现,随着数据规模从“小”到“大”,模型性能趋势出现显著反转:在小规模数据集上,复杂的流匹配(flow-matching)解码器通常更具优势;但在大规模数据下,更简单的自回归解码器反而成为最优选择。

本文的主要贡献包括:

  1. 指出“监督不足”是VLA scaling的关键瓶颈,提出DriveVLA-W0范式——通过世界建模从视觉预测中获取密集自监督学习信号;
  2. 实验表明世界建模具有两大扩展优势:一是通过学习可迁移的视觉表征,提升模型在不同动作分布领域的泛化能力;二是在7000万帧数据集上,能放大data scaling law,实现“仅动作监督”扩展无法达到的效果。
  3. 引入基于MoE的轻量级动作专家,将推理延迟降至基准模型的63.1%。以该专家为实验平台,发现动作解码器的一个明显的scaling law反转:在大规模数据下,更简单的自回归模型超越复杂的流匹配模型,与小规模数据集上的性能趋势相反。

DriveVLA-W0算法详解

本文提出的方法分为三个关键步骤:首先构建VLA基准模型(VLA Baseline),以凸显“仅动作稀疏监督”面临的挑战;其次为该基准模型引入“世界建模”(World Modeling)模块——这是本文的核心贡献,用于提供密集的自监督信号;在此基础上,为解决推理效率瓶颈,引入基于混合专家(Mixture-of-Experts, MoE)的轻量级动作专家(Action Expert),确保性能强大的模型能满足实时部署需求。

VLA基准模型

世界建模

动作专家

MoE架构:尽管大型VLA backbone的表征学习方面表现出色,但其庞大的规模对实时控制而言过于笨重。为解决这一问题,本文引入轻量级动作专家(参数规模5亿),与主VLA专家(完整VLA backbone )共同构成混合专家(MoE)架构。动作专家与VLA专家采用相似的Transformer块结构,但隐藏层维度显著更小。这种架构相似性使得两者可通过“联合注意力”(Joint Attention)机制实现深度高效的信息融合(图3(a))。

实验结果

论文主实验结果:

世界建模通过data scaling解锁了模型的泛化:

内部数据上的实验结果:

Action experts的实验结果:

消融实验:

结论

在本研究中,本文确定“监督不足”(supervision deficit)是阻碍VLA在自动驾驶领域实现扩展性的根本性瓶颈。为此,我们提出了DriveVLA-W0范式,该范式通过将预测未来图像作为密集的自监督目标来解决这一问题,且适用于基于VQ(向量量化)和基于ViT(视觉Transformer)的两种架构。

大量实验结果表明,该方法不仅在数据扩展性和泛化性上显著优于基准模型,还揭示了一个极具价值的现象:随着数据规模扩大,动作解码器的性能趋势会出现明显反转,最终更简单的自回归模型会展现出更优性能。

综上,我们的研究结果表明,采用密集的预测性世界建模(predictive world modeling)是充分释放大规模数据潜力、实现更具通用性驾驶智能的关键一步。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论