2026-01-15 梁俊卫、刘子纬等大佬重磅综述:自动驾驶 VLA 模型首个系统性框架来了!

原文链接:https://zhuanlan.zhihu.com/p/1992029851620766052

站在2026年的开端回望,自动驾驶领域最深刻的感受或许并非某项技术的单点突破,而是技术跑得太快了,快到人很容易只顾着追热点,却忘了停下来想一想,这一年真正发生了什么变化。

过去一年,一个根本性的矛盾被反复验证:在精心标注的常规场景中表现优异的系统,一旦面对真实世界中复杂、罕见的长尾场景,仍会频繁“失语”。问题往往不在于某个模块的偶然失误,而在于传统冗长的感知-决策链路本身——它将鲜活的环境不断压缩、抽象为一连串中间表示,任何环节的微小偏差,都可能在传递中被放大,最终导致决策的彻底偏离。

于是大家开始反思:能不能把链路变短一点?端到端的 VA 就是在这个背景下冒出来的,让车“看见就动”。但 VA 很快又撞上了另一堵墙:它能开,却很难把“为什么这么开”讲清楚,调试、验证、和规则对齐都不轻松。

再往前一步,语言被拉进了驾驶系统,VLA 想把意图、规则和场景理解一起塞进决策里,让车不仅会开,还能听懂你要它怎么开。当然,语言带来的也不全是加分,实时性、可靠性,以及“说得对不对、做得稳不稳”,都成了2025自驾高考的新考题。

基于此,梁俊卫、刘子纬等多位大佬在最新发布的重磅综述中,构建了该领域的首个结构化路线图。今天,我们就跟随大佬们的视角,严格按照‘Past(演进)- Present(范式)- Future(挑战)’的脉络,深度拆解 VLA 模型如何从传统的 VA 架构蜕变,当下的端到端与双系统流派之争,以及未来通往完全自动驾驶必须跨越的险滩。

01 Past:VA 时代做对了什么,又卡在了哪里?

VA 可以理解成自动驾驶端到端学习的“第一阶段目标”:尽量减少中间模块,直接从图像(或多传感器)映射到动作(转角、加速度)或规划轨迹。它的吸引力在于两点:

  • 链路短:少了很多手工接口,理论上能减少误差传递;
  • 学习能力强:用模仿学习或强化学习,把大量驾驶数据中的模式“学进来”。

但 VA 很快遇到一个现实问题:它会开,但不太会说清楚“为什么这样开”

一旦场景复杂、规则冲突、或出现少见情况,VA 的行为看起来像黑盒:你能看到它做了一个动作,却很难判断它是不是“理解对了”,也很难在系统层面植入高层指令与交通规则。

这就引出 VLA 的动机:把语言作为一种“高层约束与意图接口”引入,让系统从“看见就动”升级到“看懂任务与规则,再做动作”。

图1|代表性 VA / VLA 方法速览,这张图相当于一张“模型族谱”:把已有工作按常见路线归在一起,包括端到端模型、世界模型路线、双系统路线等

02 Present:VLA 的两大范式,端到端 vs 双系统

VLA 的核心目标可以用一句话概括:视觉给环境,语言给意图与约束,动作给执行。

但“怎么把三者连起来”并没有唯一答案。一种比较公认的分类方式,是把当前 VLA 系统分成两大范式:端到端 VLA双系统 VLA

图2|端到端 VA 怎么分?关键看它输出的到底是什么。这张图把端到端 VA 按模型结构与输出形式做了两类:只输出动作的模型:输入感知信息,直接给控制量或轨迹,链路最短;感知-动作一体的模型:除了动作输出,还会在内部或输出端显式保留一些感知相关信息,让决策更“有依据”

1)端到端 VLA:三模态进,一个模型直接出动作

端到端路线的思路很直接:模型同时接收视觉与语言(例如导航指令、驾驶意图、规则提示等),内部完成理解与推理,直接输出动作或未来轨迹。

它带来的好处也很诱人:

  • 统一建模:少了“语言理解在外、驾驶决策在内”的割裂,语言约束可以更自然地影响决策;
  • 天然可解释:很多系统会让模型同时输出行动与解释(或推理过程),从而能回答“我为什么减速/为什么变道”。

但它也把压力集中到了一个地方:实时性与可靠性

自动驾驶是强实时系统,模型一边“想”,车一边“开”。模型输出慢一点、错一点,代价都很高。端到端 VLA 想要真正落地,必须同时解决“推理延迟、长尾鲁棒性、对幻觉/误理解的抑制”等硬问题。

图3|端到端 VLA 的两种输出路线:输出文字,还是输出数字?这张图按“动作输出形式”把端到端 VLA 分成两类:文本动作模型:先用语言把决策表达出来(像是“减速”“准备变道”“保持车道”这类高层指令),再由下游模块把它落成具体动作;数值动作模型:更直接,输出控制量或轨迹等连续数值,链路更短,但对实时性和稳定性要求更高

2)双系统 VLA:慢思考做决策解释,快系统做安全执行

双系统路线更像工业界更熟悉的形态:

让 VLM/LLM(视觉语言模型/大语言模型)负责“高层理解与决策建议”,再由传统的规划与控制模块负责“把建议变成满足约束的可执行轨迹”。你可以把它看作两条通道:

  • 慢通道(语言与推理):理解场景、读懂指令、给出高层策略(如保持车道、准备左转、在合适间隙并线、遇到行人减速等),并给出理由;
  • 快通道(规划与控制):把这些策略转成轨迹与控制量,保证碰撞约束、舒适性、动态可行性等。

双系统的优势是“更稳健、更容易落地”:

它允许语言模型参与决策与交互,但不会把底层安全约束完全交给语言模型“自觉遵守”。缺点是融合接口更复杂:高层建议怎么表达得既清晰又可执行,仍然需要工程化设计,否则就会出现“建议很好听,但执行不了”的割裂感。

图4|双系统 VLA 怎么分?看语言模型是“明说怎么做”还是“悄悄影响”。双系统路线的共同点是:语言模型负责高层理解与推理,执行模块负责安全落地。不同点在于两者怎么交互:显式动作引导:语言模型直接给出清晰的行动建议或约束,执行模块照着做并负责安全;隐式表示传递:语言模型不一定输出明确指令,而是把内部语义表示传给执行模块,让后者在“被影响”的状态下生成动作

03 拆开来看:一个 VLA 自动驾驶系统

通常由哪些关键部件组成?

为了让读者不被名词淹没,可以把 VLA 自动驾驶的“共通结构”拆成三块:输入、主干、输出。

1)输入:视觉不止一帧,语言也不止一句

  • 视觉输入通常不仅是一帧图像,常见的是多摄像头、多时间帧,甚至还会融合激光雷达、地图等信息。因为驾驶决策高度依赖动态变化,单帧会丢掉关键线索。
  • 语言输入也不只是“去哪里”,更多时候是把“规则与意图”显式写出来:例如驾驶目标、注意事项、约束偏好、甚至对当前场景的文字化描述。

2)主干:用 VLM 做理解,用推理模块做决策组织

现在很多 VLA 系统会以一个强 VLM 作为感知与语义理解的核心,然后再接上用于驾驶决策的结构:有的直接让模型生成动作/轨迹,有的让模型先生成“计划与理由”,再交给执行模块。

这里的关键点是:语言不是装饰,它更像一种“可控接口”。研究者会用不同的提示方式(prompt 设计)把驾驶问题结构化,让模型更容易对齐“规则、约束、目标”。

图5|这张表把自动驾驶 VLA 常见的自然语言提示类型做了归类。语言在系统里通常承担“结构化输入”的作用,比如描述任务意图、补充交通规则、强调注意事项、约束行为偏好等。换句话说,prompt 不是装饰,而是把“你希望车怎么开”变成模型能读懂、能对齐的输入格式

3)输出:动作到底怎么表示,决定了系统能跑多快、能控多稳

VLA 的“Action”并不一定是直接输出方向盘角度,也可能输出:

  • 高层动作:例如保持车道、变道、减速、停车;
  • 中层轨迹:未来若干秒的路径点;
  • 底层控制量:转角与油门刹车。

不同表示方式的取舍,本质上是“可控性 vs 端到端程度”的取舍:越到底层越端到端,但越难满足约束与稳定性;越到高层越容易安全落地,但需要一个可靠的下游执行器。

04 数据集与评测:

VLA 到底该怎么“考”才公平?

VLA 之所以难,很大一部分原因在于:它不仅要会开,还要会“按语言要求开”,甚至要解释得通。这意味着评测不再只是“轨迹误差”,而是更复杂的三件事:安全、任务对齐、交互可解释。

我们可以把评测分成两类:

  • 开环(Open-loop)评测:离线给定历史观测,让模型预测动作/轨迹,看它与数据或专家策略的匹配程度。优点是便宜、可大规模对比;缺点是无法反映“模型一旦犯错,环境会怎样变”,也很难评估闭环稳定性。
  • 闭环(Closed-loop)评测:模型真的参与交互,错误会累积,能看到系统在复杂场景下是否还能保持安全与任务完成。优点是更接近真实驾驶;缺点是成本高、复现难、对模拟器与场景库依赖强。

对 VLA 来说,开环只能回答“像不像”,闭环才回答“能不能跑”。而真正麻烦的是:VLA 还要回答“听没听懂指令”。因此评测往往需要同时覆盖:

  • 驾驶安全与舒适(碰撞、越界、急刹、加速度抖动等);
  • 指令对齐(是否按要求变道/绕行/停车,是否遵守特定规则);
  • 解释一致性(说的理由是否与做的动作一致,是否出现幻觉式解释)。

图6|VA / VLA 数据集与基准一览,关键看“五个维度”是不是齐全。这张表把现有用于训练与评测 VA、VLA 的数据集按核心要素做了统一对照,读表时可以重点看这几列:视觉传感器输入:数据里提供的是相机、激光雷达点云、雷达点云,还是还包含地图信息。数据来源类型:来自真实道路采集(Real),还是来自仿真器(Sim)。语言标注方式:语言描述是自动生成的(A),还是人工标注的(M)。动作输出形式:是输出未来轨迹(Traj.),还是直接输出控制信号(Ctrl)。评测指标覆盖面:是否支持开环评测(Open),是否支持闭环评测(CL),以及是否有面向语言能力的评测(Lang.)

05 Future:VLA 上车之前

最缺的不是“更大”,而是“更可靠”

把现状盘完,未来方向其实很集中:研究者真正焦虑的是“可靠性与可控性”。可以用三句话总结成“欠账清单”。

1)可靠性:语言引入了新风险,尤其是误理解与幻觉

语言让系统更灵活,但也会引入“误落地”:模型把规则理解错、把场景描述编出来、或者解释与行动不一致。自动驾驶场景里,这类错误比在对话里严重得多,因为它会直接影响行动。

2)实时性:会推理不够,还得“来得及推理”

端到端 VLA 的落地门槛很高:推理延迟、算力消耗、长上下文处理都会挤压实时预算。未来一条重要路线是让系统在“推理深度”和“响应速度”之间做更聪明的调度,必要时能快速回到安全策略。

3)评测与基准:需要把“VLA 特有问题”考出来

传统驾驶指标擅长评估安全与舒适,但不一定能抓住 VLA 特有的失败模式,例如“指令跟随错误”“语言与视觉不一致”“解释可信度不足”。未来更完善的基准与测试集,必须能稳定复现这类错误,才能推动方法真正进步。

图7|图里给出了 AutoVLA 在数据集上的推理与规划可视化案例:你能看到模型如何结合场景信息与语言层面的决策逻辑,生成相对可解释的规划结果。想传达的是:VLA 的目标不只是“给一个动作”,还希望能把决策过程变得更可读,从而更方便评估与调试

06 总结

如果用一句更直白的话收束:

VA 解决的是“能不能从视觉直接学会开车”,VLA 追求的是“能不能把驾驶变成一件可沟通、可约束、可解释的事”。

现在的 VLA 自动驾驶已经给出了两条清晰路线:

  • 端到端路线追求统一与表达能力;
  • 双系统路线追求可控与安全落地。

接下来真正决定它能走多远的,不是模型再大一点,而是它在真实世界里能不能做到三件事:听得懂、说得清、开得稳。

REF:

论文链接:https://arxiv.org/pdf/2512.16760

论文标题:Vision-Language-Action Models for AutonomousDriving: Past, Present, and Future

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论