原文链接:https://mp.weixin.qq.com/s/DUaKz2bRLnZtidfHD6XWWA
虽然视觉-语言-动作(VLA)模型通过统一感知和规划彻底改变了自动驾驶,但它们对显式文本思维链(CoT)的依赖导致了语义-感知解耦和感知-符号冲突 。最近向隐式(潜在)推理的转变试图通过在连续的隐藏空间中思考来绕过这些瓶颈 。然而,如果没有显式的中间约束,标准的隐式 CoT 通常会表现为一种与物理规律无关的表示形式。
为了解决这个问题,清华联合小米等研究团队提出了“隐式时空 VLA”(LaST-VLA),这是一个将推理范式从离散符号处理转变为具有物理基础的隐式时空 CoT 的全新框架 。通过实现双特征对齐机制,我们将 3D 基础模型的几何约束和世界模型的动态预见能力直接提取(蒸馏)到隐式空间中 。该方法结合了从特征对齐过渡到轨迹生成的渐进式监督微调(SFT)训练策略,并通过带有组相对策略优化(GRPO)的强化学习进行改进,以确保驾驶的安全性和规则合规性。LaST-VLA 在 NAVSIM v1(91.3 PDMS)和 NAVSIM v2(87.1 EPDMS)上创造了新纪录,同时在 SURDS 和 NuDynamics 基准测试的时空推理中也表现出色。
- 论文标题:LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
- 论文链接:https://arxiv.org/pdf/2603.01928
- 项目主页:https://github.com/luo-yc17/LaST-VLA
当前问题:
当前最先进的视觉-语言-动作模型,已经能够理解“左转”、“避让行人”这样的复杂指令。但它们实现“理解”的方式,却存在两大硬伤:
- 显式文本链的“幻觉”与解耦:为了让推理过程可解释,许多模型会生成类似人类“内心独白”的文本链(如:“我看到前方有车,所以减速”)。但将密集、连续的视觉信息强行压缩成离散的文字,会产生语义鸿沟。模型可能“脑补”出与画面不符的文本,导致规划器忽视真实视觉证据,遵循有缺陷的“语言指导”,酿成危险决策。
- 隐式推理的“无根”与不稳定:为了绕过文本瓶颈,近期研究转向在连续的隐空间中进行推理。这虽然高效,但缺乏中间监督。就像一个学生只被告知最终答案,却不知道解题步骤,训练过程极不稳定,模型容易“学歪”,生成与物理现实无关的表示。
问题的根源在于:推理过程与物理世界脱节了。 无论是离散的符号还是无监督的连续向量,都没有被“锚定”在真实的3D几何和时空动态中。
因此,如何让VLA模型具备3D/WM能力,同时,直接作用到后面的Answer上去。
3 方法:
LaST-VLA通过隐式时空链式推理(Latent Spatio-Temporal CoT),将推理过程从离散符号处理转移到物理约束的连续隐空间,结合几何先验和动态先验提升规划稳定性与准确性。

3.1问题建模 (Preliminaries)

创新点 1:隐式推理与概率解耦

3.2 隐式时空思维链 (Latent Spatio-Temporal CoT)
创新点 2:特征级知识蒸馏(摒弃像素级重建)
传统方法通常依赖密集的像素级重建(如预测深度图或未来视频帧)来学习物理规律,这会带来巨大的计算开销并引入大量无关的纹理细节 。LaST-VLA 创新性地引入了外部基础模型作为特征级教师,直接在隐式特征空间中对齐几何和动态先验 。


3.3 渐进式两阶段监督微调 (Progressive Two-Stage SFT)
创新点 3:结构化因果掩码与渐进式学习

3.4 基于 GRPO 的隐式基础轨迹优化 (Trajectory Refinement via GRPO)
创新点 4:稳定先验下的强化学习安全护栏

4. 实验结果
4.1 主实验
在Navsimv1与Navsimv2上,LaST-VLA-2B与LaST-VLA-8B均能实现很好的效果。

- LaST-VLA-8B达到91.3 PDMS,超越之前最佳纯视觉方法0.5分。
- 轻量化的2B版本达到91.1 PDMS,以更少的参数实现了优于之前2B模型(Recogdrive-2B)的性能。
- 安全性指标显著提升:NC与DAC的高分,验证了几何隐式思考带来的精确空间感知;TTC的高分,则验证了动态隐式思考带来的前瞻预测能力。
在RL阶段,我们仅使用Navsim v1的PDMS作为Reward Model,同样在Navsim v2的EPDMS上实现了最佳的性能,证明LaST-VLA不是仅仅只能拟合PDMS,还能够在EPDMS表现很好。


4.2 消融实验
整体优势:仅仅通过监督微调(SFT),LaST-VLA的 8B 和 2B 版本就稳定超越了它们对应的 InternVL3 基线模型 。
空间与几何推理(SURDS 基准):8B 模型的总分相比 SURDS-3B 方法和基线模型分别大幅提升了 43.49% 和 7.68%,2B 模型也提升了 8.17% 。
绝对定位:在偏航角确定和像素估计任务上准确率均超过 70%,展现了极强的内在几何推理能力 。
相对关系:在判断左右(90.27%)和前后(88.00%)等空间关系任务上表现极为优异,这证明了其强大的空间组合推理能力,有效缓解了以往 VLM(视觉语言模型)中常见的空间迷失问题 。
动态场景理解(NuDynamics benchmark):8B 和 2B 模型的运动得分(Motion scores)分别达到了 81.19% 和 71.80% 。这一成绩不仅超越了微调后的基线模型,甚至击败了参数量巨大的通用大模型 Qwen2.5-VL-72B 。


文本 CoT 存在语义局限:引入显式的文本 CoT 虽能带来性能增益(+1.2 PDMS)并辅助任务分解,但其上限受制于文本与视觉之间的语义鸿沟 。无监督隐式 CoT 陷入“黑箱”困境:虽然无监督的隐式 CoT 成功绕过了文本瓶颈(达到 89.8 PDMS),但因缺乏物理约束,导致训练过程极不稳定(即使在训练后期也会出现剧烈的性能波动) 。物理监督隐式 CoT 兼顾性能与稳定:对隐式特征施加显式的物理监督达到了最佳表现(比无监督版本高出 1.5 PDMS),不仅性能最优,而且在模型收敛时极其稳健 。物理先验直接转化为行驶安全:这种物理约束切实带来了关键的安全提升(将 DAC 提升至 97.9,TTC 提升至 95.6) 。这证明了将隐式 CoT 与物理先验对齐,能成功把不稳定的特征转化为一个强大且有依据的推理引擎 。

发表回复