2026-01-15 梁俊卫、刘子纬等大佬重磅综述：自动驾驶 VLA 模型首个系统性框架来了！

原文链接：https://zhuanlan.zhihu.com/p/1992029851620766052

站在2026年的开端回望，自动驾驶领域最深刻的感受或许并非某项技术的单点突破，而是技术跑得太快了，快到人很容易只顾着追热点，却忘了停下来想一想，这一年真正发生了什么变化。

过去一年，一个根本性的矛盾被反复验证：在精心标注的常规场景中表现优异的系统，一旦面对真实世界中复杂、罕见的长尾场景，仍会频繁“失语”。问题往往不在于某个模块的偶然失误，而在于传统冗长的感知-决策链路本身——它将鲜活的环境不断压缩、抽象为一连串中间表示，任何环节的微小偏差，都可能在传递中被放大，最终导致决策的彻底偏离。

于是大家开始反思：能不能把链路变短一点？端到端的 VA 就是在这个背景下冒出来的，让车“看见就动”。但 VA 很快又撞上了另一堵墙：它能开，却很难把“为什么这么开”讲清楚，调试、验证、和规则对齐都不轻松。

再往前一步，语言被拉进了驾驶系统，VLA 想把意图、规则和场景理解一起塞进决策里，让车不仅会开，还能听懂你要它怎么开。当然，语言带来的也不全是加分，实时性、可靠性，以及“说得对不对、做得稳不稳”，都成了2025自驾高考的新考题。

基于此，梁俊卫、刘子纬等多位大佬在最新发布的重磅综述中，构建了该领域的首个结构化路线图。今天，我们就跟随大佬们的视角，严格按照‘Past（演进）- Present（范式）- Future（挑战）’的脉络，深度拆解 VLA 模型如何从传统的 VA 架构蜕变，当下的端到端与双系统流派之争，以及未来通往完全自动驾驶必须跨越的险滩。

01 Past：VA 时代做对了什么，又卡在了哪里？

VA 可以理解成自动驾驶端到端学习的“第一阶段目标”：尽量减少中间模块，直接从图像（或多传感器）映射到动作（转角、加速度）或规划轨迹。它的吸引力在于两点：

链路短：少了很多手工接口，理论上能减少误差传递；
学习能力强：用模仿学习或强化学习，把大量驾驶数据中的模式“学进来”。

但 VA 很快遇到一个现实问题：它会开，但不太会说清楚“为什么这样开”。

一旦场景复杂、规则冲突、或出现少见情况，VA 的行为看起来像黑盒：你能看到它做了一个动作，却很难判断它是不是“理解对了”，也很难在系统层面植入高层指令与交通规则。

这就引出 VLA 的动机：把语言作为一种“高层约束与意图接口”引入，让系统从“看见就动”升级到“看懂任务与规则，再做动作”。

图1｜代表性 VA / VLA 方法速览，这张图相当于一张“模型族谱”：把已有工作按常见路线归在一起，包括端到端模型、世界模型路线、双系统路线等

02 Present：VLA 的两大范式，端到端 vs 双系统

VLA 的核心目标可以用一句话概括：视觉给环境，语言给意图与约束，动作给执行。

但“怎么把三者连起来”并没有唯一答案。一种比较公认的分类方式，是把当前 VLA 系统分成两大范式：端到端 VLA 与 双系统 VLA。

图2｜端到端 VA 怎么分？关键看它输出的到底是什么。这张图把端到端 VA 按模型结构与输出形式做了两类：只输出动作的模型：输入感知信息，直接给控制量或轨迹，链路最短；感知-动作一体的模型：除了动作输出，还会在内部或输出端显式保留一些感知相关信息，让决策更“有依据”

1）端到端 VLA：三模态进，一个模型直接出动作

端到端路线的思路很直接：模型同时接收视觉与语言（例如导航指令、驾驶意图、规则提示等），内部完成理解与推理，直接输出动作或未来轨迹。

它带来的好处也很诱人：

统一建模：少了“语言理解在外、驾驶决策在内”的割裂，语言约束可以更自然地影响决策；
天然可解释：很多系统会让模型同时输出行动与解释（或推理过程），从而能回答“我为什么减速/为什么变道”。

但它也把压力集中到了一个地方：实时性与可靠性。

自动驾驶是强实时系统，模型一边“想”，车一边“开”。模型输出慢一点、错一点，代价都很高。端到端 VLA 想要真正落地，必须同时解决“推理延迟、长尾鲁棒性、对幻觉/误理解的抑制”等硬问题。

图3｜端到端 VLA 的两种输出路线：输出文字，还是输出数字？这张图按“动作输出形式”把端到端 VLA 分成两类：文本动作模型：先用语言把决策表达出来（像是“减速”“准备变道”“保持车道”这类高层指令），再由下游模块把它落成具体动作；数值动作模型：更直接，输出控制量或轨迹等连续数值，链路更短，但对实时性和稳定性要求更高

2）双系统 VLA：慢思考做决策解释，快系统做安全执行

双系统路线更像工业界更熟悉的形态：

让 VLM/LLM（视觉语言模型/大语言模型）负责“高层理解与决策建议”，再由传统的规划与控制模块负责“把建议变成满足约束的可执行轨迹”。你可以把它看作两条通道：

慢通道（语言与推理）：理解场景、读懂指令、给出高层策略（如保持车道、准备左转、在合适间隙并线、遇到行人减速等），并给出理由；
快通道（规划与控制）：把这些策略转成轨迹与控制量，保证碰撞约束、舒适性、动态可行性等。

双系统的优势是“更稳健、更容易落地”：

它允许语言模型参与决策与交互，但不会把底层安全约束完全交给语言模型“自觉遵守”。缺点是融合接口更复杂：高层建议怎么表达得既清晰又可执行，仍然需要工程化设计，否则就会出现“建议很好听，但执行不了”的割裂感。

图4｜双系统 VLA 怎么分？看语言模型是“明说怎么做”还是“悄悄影响”。双系统路线的共同点是：语言模型负责高层理解与推理，执行模块负责安全落地。不同点在于两者怎么交互：显式动作引导：语言模型直接给出清晰的行动建议或约束，执行模块照着做并负责安全；隐式表示传递：语言模型不一定输出明确指令，而是把内部语义表示传给执行模块，让后者在“被影响”的状态下生成动作

03 拆开来看：一个 VLA 自动驾驶系统

通常由哪些关键部件组成？

为了让读者不被名词淹没，可以把 VLA 自动驾驶的“共通结构”拆成三块：输入、主干、输出。

1）输入：视觉不止一帧，语言也不止一句

视觉输入通常不仅是一帧图像，常见的是多摄像头、多时间帧，甚至还会融合激光雷达、地图等信息。因为驾驶决策高度依赖动态变化，单帧会丢掉关键线索。
语言输入也不只是“去哪里”，更多时候是把“规则与意图”显式写出来：例如驾驶目标、注意事项、约束偏好、甚至对当前场景的文字化描述。

2）主干：用 VLM 做理解，用推理模块做决策组织

现在很多 VLA 系统会以一个强 VLM 作为感知与语义理解的核心，然后再接上用于驾驶决策的结构：有的直接让模型生成动作/轨迹，有的让模型先生成“计划与理由”，再交给执行模块。

这里的关键点是：语言不是装饰，它更像一种“可控接口”。研究者会用不同的提示方式（prompt 设计）把驾驶问题结构化，让模型更容易对齐“规则、约束、目标”。

图5｜这张表把自动驾驶 VLA 常见的自然语言提示类型做了归类。语言在系统里通常承担“结构化输入”的作用，比如描述任务意图、补充交通规则、强调注意事项、约束行为偏好等。换句话说，prompt 不是装饰，而是把“你希望车怎么开”变成模型能读懂、能对齐的输入格式

3）输出：动作到底怎么表示，决定了系统能跑多快、能控多稳

VLA 的“Action”并不一定是直接输出方向盘角度，也可能输出：

高层动作：例如保持车道、变道、减速、停车；
中层轨迹：未来若干秒的路径点；
底层控制量：转角与油门刹车。

不同表示方式的取舍，本质上是“可控性 vs 端到端程度”的取舍：越到底层越端到端，但越难满足约束与稳定性；越到高层越容易安全落地，但需要一个可靠的下游执行器。

04 数据集与评测：

VLA 到底该怎么“考”才公平？

VLA 之所以难，很大一部分原因在于：它不仅要会开，还要会“按语言要求开”，甚至要解释得通。这意味着评测不再只是“轨迹误差”，而是更复杂的三件事：安全、任务对齐、交互可解释。

我们可以把评测分成两类：

开环（Open-loop）评测：离线给定历史观测，让模型预测动作/轨迹，看它与数据或专家策略的匹配程度。优点是便宜、可大规模对比；缺点是无法反映“模型一旦犯错，环境会怎样变”，也很难评估闭环稳定性。
闭环（Closed-loop）评测：模型真的参与交互，错误会累积，能看到系统在复杂场景下是否还能保持安全与任务完成。优点是更接近真实驾驶；缺点是成本高、复现难、对模拟器与场景库依赖强。

对 VLA 来说，开环只能回答“像不像”，闭环才回答“能不能跑”。而真正麻烦的是：VLA 还要回答“听没听懂指令”。因此评测往往需要同时覆盖：

驾驶安全与舒适（碰撞、越界、急刹、加速度抖动等）；
指令对齐（是否按要求变道/绕行/停车，是否遵守特定规则）；
解释一致性（说的理由是否与做的动作一致，是否出现幻觉式解释）。

图6｜VA / VLA 数据集与基准一览，关键看“五个维度”是不是齐全。这张表把现有用于训练与评测 VA、VLA 的数据集按核心要素做了统一对照，读表时可以重点看这几列：视觉传感器输入：数据里提供的是相机、激光雷达点云、雷达点云，还是还包含地图信息。数据来源类型：来自真实道路采集（Real），还是来自仿真器（Sim）。语言标注方式：语言描述是自动生成的（A），还是人工标注的（M）。动作输出形式：是输出未来轨迹（Traj.），还是直接输出控制信号（Ctrl）。评测指标覆盖面：是否支持开环评测（Open），是否支持闭环评测（CL），以及是否有面向语言能力的评测（Lang.）

05 Future：VLA 上车之前

最缺的不是“更大”，而是“更可靠”

把现状盘完，未来方向其实很集中：研究者真正焦虑的是“可靠性与可控性”。可以用三句话总结成“欠账清单”。

1）可靠性：语言引入了新风险，尤其是误理解与幻觉

语言让系统更灵活，但也会引入“误落地”：模型把规则理解错、把场景描述编出来、或者解释与行动不一致。自动驾驶场景里，这类错误比在对话里严重得多，因为它会直接影响行动。

2）实时性：会推理不够，还得“来得及推理”

端到端 VLA 的落地门槛很高：推理延迟、算力消耗、长上下文处理都会挤压实时预算。未来一条重要路线是让系统在“推理深度”和“响应速度”之间做更聪明的调度，必要时能快速回到安全策略。

3）评测与基准：需要把“VLA 特有问题”考出来

传统驾驶指标擅长评估安全与舒适，但不一定能抓住 VLA 特有的失败模式，例如“指令跟随错误”“语言与视觉不一致”“解释可信度不足”。未来更完善的基准与测试集，必须能稳定复现这类错误，才能推动方法真正进步。

图7｜图里给出了 AutoVLA 在数据集上的推理与规划可视化案例：你能看到模型如何结合场景信息与语言层面的决策逻辑，生成相对可解释的规划结果。想传达的是：VLA 的目标不只是“给一个动作”，还希望能把决策过程变得更可读，从而更方便评估与调试

06 总结

如果用一句更直白的话收束：

VA 解决的是“能不能从视觉直接学会开车”，VLA 追求的是“能不能把驾驶变成一件可沟通、可约束、可解释的事”。

现在的 VLA 自动驾驶已经给出了两条清晰路线：

端到端路线追求统一与表达能力；
双系统路线追求可控与安全落地。

接下来真正决定它能走多远的，不是模型再大一点，而是它在真实世界里能不能做到三件事：听得懂、说得清、开得稳。

REF：

论文链接：https://arxiv.org/pdf/2512.16760

论文标题：Vision-Language-Action Models for AutonomousDriving: Past, Present, and Future

2026-01-15 梁俊卫、刘子纬等大佬重磅综述：自动驾驶 VLA 模型首个系统性框架来了！

01 Past：VA 时代做对了什么，又卡在了哪里？