2025-12-31 滴滴最近在加速了!ColaVLA:潜在认知推理的分层并行VLA框架(清华&港中文&滴滴)

原文链接:https://mp.weixin.qq.com/s/C69l9sTnHnBlVsEDc5ROLw

滴滴最近开始加速算法预研了,清华&港中文mmlab&滴滴最新的VLA工作 – ColaVLA。很有意思的一篇工作,提出“Cognitive Latent Reasoner”实现驾驶场景理解、关键目标识别、Latent Rethinking和驾驶决策的生成,“Hierarchical Parallel Planner”利用多尺度的Target和驾驶决策实现分层并行的轨迹解码,由粗到细的生成更优的自车轨迹。开闭环上的结果还不错,比ImpromptuVLA高一些。

  • 论文标题:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2512.22939

自动驾驶需要从复杂的多模态输入中生成安全可靠的轨迹。传统模块化流水线将感知、预测和规划分离开来,而近年来的端到端(E2E)系统则对这些任务进行联合学习。

视觉-语言模型(VLMs)通过引入跨模态先验知识和常识推理进一步丰富了这一范式,但当前基于VLM的规划器面临三大核心挑战:

  • (i)离散文本推理与连续控制之间的模态不匹配;
  • (ii)自回归思维链解码带来的高延迟;
  • (iii)效率低下或非因果的规划器设计限制了实时部署能力。

本文提出ColaVLA,一种统一的视觉-语言-动作框架,该框架将推理过程从文本域迁移至统一潜变量空间,并与分层并行轨迹解码器相结合。认知潜变量推理器通过自车自适应选择机制和仅两次VLM前向传播,将场景理解压缩为紧凑的、面向决策的元动作嵌入。分层并行规划器随后在单次前向传播中生成多尺度、因果一致的轨迹。这些组件协同工作,既保留了VLM的泛化性和可解释性,又实现了高效、准确且安全的轨迹生成。在nuScenes基准数据集上的实验表明,ColaVLA在开环和闭环设置下均达到了当前最优性能,同时具备优异的效率和鲁棒性。

一、背景回顾

自动驾驶的目标是从丰富的多模态观测数据中预测安全舒适的运动轨迹。早期系统采用感知-预测-规划分离的模块化架构,包含专用的3D感知模块、预测模块和规划模块。近年来的端到端方法则将这些模块统一整合,在统一流水线中实现从像素到路径点或控制指令的学习。与此同时,视觉-语言模型(VLMs)正被日益广泛地整合到自动驾驶系统中,以注入跨模态先验知识和世界知识——其应用形式包括作为输出控制指令或轨迹的智能体规划模型,或作为引导端到端模块的推理辅助器。

尽管取得了快速进展,但基准数据集上的精度与实际部署中的可靠性之间仍存在显著差距。模块化系统具备可解释的组件和强大的几何先验知识,但脆弱的模块接口可能导致误差传播,且难以实现全局优化。端到端系统减少了人工设计的接口,实现了较高的开环精度,但往往依赖稀疏的轨迹监督信号,将感知与控制以模糊因果结构的方式交织在一起,且在分布外场景中泛化能力较弱。基于文本的VLM规划器虽添加了强大的先验知识,但也引入了一些实际问题:

  • (1)模态不匹配。离散文本token与轨迹的连续几何特性和动力学特性不匹配,可能导致格式违规或物理上不一致的路径点。
  • (2)思维链推理延迟。自回归解码的计算开销源于其逐token迭代生成过程——每个新token依赖于先前生成的token,导致序列长度随时间增长,显著增加推理延迟。

为弥补上述差距,本文重新审视了VLM在驾驶任务中的作用,提出将推理过程从显式文本思维链转向统一潜变量推理。核心思路是在统一的潜变量空间中完整执行推理过程,并结合一个在并行解码时保持因果结构的规划器。这种设计既保留了VLM的知识先验和推理能力,又避免了冗长的自回归推理及其带来的延迟。总体而言,ColaVLA包含两个核心组件:将场景证据提炼为紧凑元动作先验的认知潜变量推理器,以及在因果保持机制下将这些先验转换为多尺度轨迹的分层并行规划器

首先,认知潜变量推理器通过两次前向传播高效完成场景理解和最终元动作决策。具体而言,在第一次前向传播中,推理器构建包含固定驾驶提示、多视角视觉图像和自车状态的多模态输入序列,并将其输入VLM以获得经过完整上下文交互的统一token。然而,视觉token中包含大量与驾驶决策无关的冗余信息。为从场景中提取决策相关信息,我们引入自车自适应调制机制,使这些token与车辆瞬时状态对齐,随后通过一个轻量级路由器对token进行评分并筛选出Top-K个安全关键视觉token。在第二次前向传播中,我们将筛选后的上下文与可学习的元查询拼接作为输入,使每个元动作嵌入能够通过交叉注意力机制查询驾驶关键上下文,最终得到驾驶决策。

在推理器决策的引导下,分层并行规划器采用与推理器相同的VLM,通过并行解码预测多尺度细粒度轨迹。具体而言,根据选定的决策从动作库中检索对应的元动作嵌入;利用该元动作嵌入,通过时间嵌入实例化全时域动作块,并将其重采样为S个嵌套的、从粗到细的尺度;最后,将所有尺度的嵌入与筛选后的上下文拼接作为规划器输入,在单次前向传播中并行解码生成轨迹。该设计实现了连贯且因果一致的规划过程,生成多尺度连续轨迹的同时大幅降低了推理延迟。

本文的主要贡献如下:

  • (1)提出ColaVLA,一种面向端到端自动驾驶的统一视觉-语言-动作框架,直接对连续轨迹进行建模,在利用VLM先验知识的同时避免了模态不匹配问题。
  • (2)设计认知潜变量推理器,将推理过程从文本思维链迁移至统一潜变量空间,通过自车自适应路由和元信息压缩,使模型能够广泛观测、选择性聚焦、审慎重思考并高效决策。
  • (3)提出分层并行规划器,在单次前向传播中解码所有时间尺度和模态,在严格的延迟约束下实现高效、合理且安全的轨迹生成。
  • (4)在nuScenes基准数据集上的综合实验表明,ColaVLA在开环和闭环评估中均达到当前最优性能,同时保持了较强的可解释性和计算效率。

二、ColaVLA算法详解

框架概述

认知潜变量推理

分层并行规划

实验结果分析

实现细节

与SOTA对比

开环规划结果:表1报告了nuScenes开环基准测试结果。在基于动作的方法中,ColaVLA取得了最佳的整体准确性和安全性,平均L2误差最低(0.30米),平均碰撞率最低(0.23%)。与最强的现有基于动作基线SOLVE-E2E(平均L2误差0.31米;平均碰撞率0.30%)相比,本文方法将L2误差降低3%,碰撞率降低23%,表明轨迹预测更精确、更安全。值得注意的是,ColaVLA在避免自回归文本解码的同时,与最新基于文本的VLM规划器也具备竞争力。通过将推理迁移至潜变量空间并引入认知潜变量推理与分层并行解码,该框架的VLM前向传播次数比典型基于文本的流水线减少超过5倍,在直接操作潜变量动作空间的同时彰显了卓越效率。

闭环规划结果:在NeuroNCAP闭环基准测试中(表2),ColaVLA达到新的当前最优性能,NeuroNCAP评分为3.48,较最强现有方法ImpromptuVLA绝对提升1.10(相对提升53%)。安全性方面,模型将平均碰撞率从65.1%降至36.8%,其中静态碰撞率改善尤为显著(54.8%→32.3%,降低约41%),侧碰撞性能也达到最佳。更低的整体碰撞率和显著更高的NeuroNCAP评分凸显了其强大的闭环鲁棒性。需要注意的是,ImpromptuVLA是基于文本的VLM,训练使用了额外的精选数据,而ColaVLA无需文本思维链推理和额外安全关键数据即可实现更高分数。这些结果验证了认知潜变量推理和分层并行规划器的有效性:将推理迁移至视觉对齐潜变量空间,并通过单次并行解码生成轨迹,转化为更优的决策质量和闭环评估下的安全性提升。

推理耗时比较:如表3所示,ColaVLA在所有对比方法中实现了最低延迟,同时保持了优异的规划准确性和安全性。与依赖文本层面自回归思维链推理的SOLVE-VLM和OmniDrive相比,本文的潜变量推理和单次分层解码实现了超过5倍的推理加速,支持高效、可解释的规划。

定性结果

图4展示了分层并行规划器的定性结果。在直线和转弯场景中,粗轨迹(红色)捕获全局意图,而细粒度尺度(黄色、紫色)逐步优化空间细节和曲率,最终与真实轨迹(绿色)高度吻合。这些结果表明,分层解码在单次前向传播中即可生成平滑、准确的规划。

消融实验

本节通过系统消融所提组件和关键超参数,评估其单独及组合贡献。实验在nuScenes上进行,采用两个互补指标:开环L2平均误差和闭环NeuroNCAP评分。

潜变量推理的消融:如表4所示,对推理模块的消融实验验证了其有效性。引入潜变量推理显著增强了模型的推理能力,实现了更准确的预测并降低了平均L2误差。此外,添加重思考(Rethink)阶段使模型能够重新评估当前驾驶场景的压缩关键信息,优化视觉理解并为后续阶段提供更优决策支持。这种渐进式推理过程提升了模型在复杂或动态交通场景中的泛化能力和鲁棒性。

分层回归策略的消融:研究了不同分层轨迹回归策略,所有变体采用相同的并行解码框架,但跨尺度轨迹子集的选择策略不同:

  • 单尺度(Single scale)基线:无时间抽象,直接回归最终轨迹,作为非因果参考。
  • 顺序策略(Sequential):从起点向前扩展轨迹。
  • 反向策略(Reverse):从终点向后传播。
  • 插值策略(Interpolate,本文提出):先预测关键端点,再跨尺度填充中间点,与驾驶运动的因果结构对齐。

如表7所示,所有多尺度设计均优于单尺度基线,证明了时间抽象的优势。其中,插值策略取得了最佳性能,验证了其在结构化、因果一致轨迹推理中的有效性。

四、结论

本文提出ColaVLA,一种面向端到端自动驾驶的统一视觉-语言-动作框架。通过将推理过程从文本域迁移至统一潜变量空间,并与分层并行规划器相结合,ColaVLA弥合了VLM认知与连续动作生成之间的鸿沟。其认知潜变量推理器通过自车自适应token选择,高效将场景理解压缩为紧凑的元动作表示;而因果保持规划器在单次前向传播中解码多尺度轨迹。该设计实现了高效、可解释且安全的规划,延迟极低。在nuScenes上的实验表明,ColaVLA在开环和闭环评估中均建立了新的当前最优性能,同时保持了强大的泛化能力、效率和鲁棒性。这些结果表明,将推理从文本域迁移至潜变量空间,为构建高效、知识驱动的自动驾驶系统提供了可扩展路径。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论