2025-11-14 英伟达一篇长达41页的自驾VLA框架!因果链推理,实车可部署算法Alpamayo-R1

原文链接:https://mp.weixin.qq.com/s/CkUA8w5dGiYH3vO979UCtA

一篇长达41页的自动驾驶VLA框架 — Alpamayo-R1。Alpamayo-R1指出基于模仿学习的端到端架构,在长尾场景中的表现能力很差,这是由于监督信号稀疏并且因果推理的理解能力不足。另外现有自驾VLA的框架没办法显式约束思维链和决策行为之间的关联,一方面可能出现幻觉的问题,另一方面也没办法保证因果理解的正确性。举个错误的例子:左转是红灯,但由于直行是绿灯所以允许车辆左转。

为了解决这些问题,Alpamayo-R1将因果链(Chain of Causation)推理与轨迹规划相融合,以提升复杂驾驶场景下的决策能力。本文方法包含三大核心创新:

  • (1)因果链(CoC)数据集:通过“自动标注+人机协同”的混合流程构建,生成与驾驶行为对齐、以决策为核心且具备因果关联的推理轨迹;
  • (2)模块化VLA架构:整合为物理智能(Physical AI)应用预训练的视觉-语言模型Cosmos-Reason,以及基于扩散模型(diffusion-based)的轨迹解码器,可实时生成动态可行驶的规划方案;
  • (3)多阶段训练策略:采用有监督微调SFT激发模型推理能力,并结合强化学习,通过大型推理模型反馈优化推理质量,同时确保推理与动作的一致性。

结果表明,相较于仅基于轨迹的基准模型,AR1在高难度场景下的规划准确率提升高达12%;在闭环仿真中,偏离车道率降低35%,近距离碰撞率降低25%。经强化学习后训练(RL post-training),通过推理模型评估器测得模型推理质量提升45%,推理-动作一致性提升37%。模型参数从0.5B扩展至7B时,性能持续提升。实车道路测试验证了该模型的实时性能(延迟99毫秒)及成功的城市路况部署能力。通过将可解释推理与精准控制相衔接,AR1为实现L4级自动驾驶提供了一条切实可行的路径。未来,英伟达计划发布AR1模型及部分CoC数据集。

  • 论文标题:Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail
  • 论文链接:https://arxiv.org/abs/2511.00088
  • 开源链接:https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicles

一、背景回顾

自动驾驶系统的发展经历了范式转变:从传统的模块化架构转向端到端自动驾驶框架,这一转变已得到业界的广泛认可。传统模块化设计通过人工设计的中间表示,将感知、预测与规划模块明确分离;而端到端方法则通过联合训练的神经网络,直接将原始传感器输入映射为车辆运动指令。这种一体化设计消除了人工设计的接口,支持大规模的联合优化与数据驱动型策略学习。近年来,基于Transformer的架构不断发展,结合大规模驾驶数据集,进一步提升了端到端驾驶范式的整体性能与泛化能力。

尽管取得了这些成果,当前端到端方法在处理长尾场景与安全关键场景时仍存在脆弱性——这些场景中,监督信号稀疏且需高阶推理能力,给模型带来了重大挑战。因此,现有端到端模型的能力与实现具备驾驶专属推理能力的稳健L4级自动驾驶需求之间,仍存在显著差距。

大语言模型的最新进展为填补这一推理差距提供了极具潜力的方向。LLMs彻底改变了人工智能领域,其缩放定律表明,随着计算资源与数据量的增加,模型性能会呈现可预测的提升。除训练阶段的缩放外,近期的前沿模型(如OpenAI的o1、DeepSeek-R1等)还引入了一种新范式:inference-time reasoning。与传统单步答案生成不同,这些模型会生成中间推理轨迹(即“思维链”),模仿人类解决问题的策略。这一转变使推理时间成为可调节资源:为审慎推理分配更多计算资源,通常能获得更准确、稳健且可验证的决策。对于自动驾驶而言,这种推理能力尤为重要——毕竟驾驶决策本质上存在不确定性,且关乎安全。基于文本的推理还能让模型在执行动作前,在语言空间中探索多种可能结果,其核心优势包括:

  • (1)通过显式反事实推理及运行时安全交叉校验与监控,提升安全性;
  • (2)通过人类可理解的决策依据,增强模型可解释性;
  • (3)提供更丰富的训练信号(可作为可验证奖励),以提升长尾场景下的性能。

视觉-语言模型(VLMs)与视觉-语言-动作模型(VLAs)已在自动驾驶领域得到广泛应用,但多数方法要么缺乏显式推理过程,要么采用自由形式、无结构化的推理方式。这类方法难以泛化到训练分布之外的场景,尤其在模糊或组合型长尾场景中——这些场景亟需强领域先验知识的支撑。此外,若将自动驾驶车辆的推理视为纯粹的自然语言处理(NLP)问题,会忽略驾驶任务固有的丰富结构化知识,例如车道几何、交通规则、地图先验、智能体交互及动态约束等。

本文认为,有效的自动驾驶推理必须具备因果锚定能力,且在结构上与驾驶任务对齐。推理轨迹不应是冗长的无结构化叙述,而应通过因果链将观测到的场景证据与具体驾驶决策显式关联,且这些决策需直接约束或控制低阶轨迹生成。上述设计原则确保:推理不仅是提升可解释性的附加组件,更是提升训练效率与闭环驾驶性能(尤其在安全关键型长尾事件中)的功能性核心。

本文提出Alpamayo-R1(AR1)——一种扩展自视觉-动作(VA)模型Alpamayo-VA的VLA模型,具备结构化推理能力,可衔接推理与动作预测,实现泛化性自动驾驶。该模型通过三大核心创新应对上述挑战:

  1. 构建结构化的因果链(CoC)标注框架:生成与驾驶场景对齐、以决策为核心且具备因果关联的推理轨迹;同时开发“人机协同+自动标注”的混合流程,支持大规模高质量数据生成。
  2. 采用基于flow matching的动作专家轨迹解码器:高效生成连续、多模态的轨迹规划方案,既能与语言推理输出对齐,又能满足实时推理需求。
  3. 设计多阶段训练策略:以Cosmos-Reason VLM为主干网络,注入动作模态以实现轨迹预测,通过在CoC数据集上的有监督微调激发推理能力,并采用强化学习(RL)提升推理质量、推理-动作一致性及轨迹质量。

通过大量开环与闭环(仿真及实车)评估,本文证明AR1相较于端到端基准模型实现了显著性能提升,且在罕见、安全关键场景中的收益最为显著,同时保持了实时推理性能(端到端推理耗时99毫秒)。

构建适用于自动驾驶的高效推理型视觉-语言-动作(VLA)模型,需具备通用视觉-语言模型目前尚不具备的多项新能力。首先,自动驾驶车辆需依赖多摄像头、多时间步观测实现360度环境感知,但标准VLMs通常独立处理图像或视频帧,缺乏显式的时序与跨视角推理能力,导致处理多摄像头输入时token数量过高,无法满足实时推理需求。其次,驾驶决策需基于结构化因果推理,而非自由形式的叙述;模型需依据历史窗口中的可观测证据,解释某项操作为何安全且合法。第三,模型需实时生成精准的多模态轨迹预测;将路径点作为文本token进行自回归解码效率低下,且缺乏安全车辆控制所需的几何与运动学约束。最后,为确保长尾场景下的安全性,推理轨迹需与执行动作保持对齐。

为应对上述挑战,本文提出Alpamayo-R1(AR1)——一种模块化VLA架构,其在Alpamayo-VA模型基础上扩展了推理能力,可衔接推理与动作预测以实现自动驾驶。该架构的设计理念强调灵活性与模块化:可兼容任何现成的VLM backbone网络,同时集成面向自动驾驶领域的专用组件(用于高效视觉编码与实时动作解码)。这种模块化设计使我们能够充分利用视觉-语言预训练领域的最新进展,同时高效衔接高阶推理与低阶控制,以适配自动驾驶任务。

问题定义

VLM主干网络:Cosmos-Reason

本文选用Cosmos-Reason作为AR1的VLM主干网络。Cosmos-Reason是专为物理智能(Physical AI)应用设计的VLM,通过在370万视觉问答(VQA)样本上进行后训练,具备物理常识与具身推理能力。该模型包含2.47万条精心筛选的驾驶场景视频VQA样本,涵盖场景描述、驾驶难度标注,以及从DeepSeek-R1蒸馏得到的动作预测推理轨迹。

领域特定有监督微调:

为进一步增强Cosmos-Reason在自动驾驶场景中的部署能力,本文构建了覆盖多个物理智能领域的补充数据集,包括自动驾驶、机器人、医疗健康、智慧城市、制造业、零售业与物流。这种跨领域物理智能预训练使模型能够形成通用的物理常识与具身推理能力,并迁移到驾驶场景中。针对自动驾驶任务,本文额外增加了10万条训练样本,包含环境关键目标标注与动作推理内容。

驾驶导向的数据构建:

为平衡标注质量与规模,本文设计了互补的标注方法:

  • 人工标注数据:涵盖全面的标注内容,包括运行设计域(天气、光照、路况)、交通规则(红绿灯、交通标志)、自车行为(交互性与非交互性元动作)、影响自车行为的关键目标,以及观测操作背后的因果推理。这些标注可提升模型在复杂驾驶场景中的理解与推理能力。
  • 自动标注数据:聚焦自车行为推理与预测,通过向教师VLM(如Qwen3-VL(Qwen Team, 2025))输入驾驶专属先验知识(包含纵向、横向、车道相关元动作及速度信息)生成标注。这种可扩展的方法能增强模型的预测推理能力。

特定领域适配

尽管Cosmos-Reason提供了坚实的基础,但要实现实际自动驾驶部署,仍需解决两个关键问题:多摄像头、多时间步输入的高效视觉编码,以及实时控制所需的精准轨迹解码。以下小节将详细介绍针对这些挑战设计的领域专用组件。

视觉编码

在VLM中,视觉编码器的核心作用是将输入图像转换为token流,供后续LLM主干网络处理。然而,由于VLA需部署在实车上,其视觉编码器的关键要求是:在保留环境相关语义信息的前提下,尽可能减少生成的token数量。目前已有多种视觉token化方法,其主要差异在于每次推理步骤的信息编码量(即多少图像被压缩为多少token)及相关架构设计。

本节将讨论AR1可采用的不同视觉编码器及其权衡关系,同时探讨进一步压缩token数量的方法,以实现更大主干网络的实时车载推理。

单图像token化:

多摄像头token化:

多摄像头视频token化:

尽管上述方法已大幅减少传感器观测所需的token数量,但仍有两个核心方向可进一步提升效率:

  • (1)时序信息利用:帧间信息存在冗余,可通过时序建模减少token数量;
  • (2)突破结构化特征表示的性能上限。

因此,AR1还支持多摄像头视频tokenizer,可直接对多时间步的多摄像头观测序列进行编码。例如,Flex通过全自注意力层与固定查询向量集,对多摄像头、多时间步的图像token进行压缩,提供了控制信息瓶颈规模的显式机制。该方法相较于单图像token化,token压缩率最高可达20倍,同时仍能保持甚至提升下游驾驶指标。

token压缩的其他方向:

除上述token化策略外,还有多种补充方法可进一步减少token数量。例如,SparseVILA提出的训练后token剪枝技术,可在推理时动态识别并移除冗余token,无需重新训练,为已训练模型降低计算成本提供了实用路径。这些方法为AR1向更大主干网络扩展、同时保持实时性能提供了潜在方向。

轨迹解码

小结

本节详细阐述了将VLMs系统适配为自动驾驶策略VLA的两个核心设计维度(视觉编码与动作解码)。在后续章节中,本文将详细介绍数据流程构建与训练策略设计——这两部分共同赋予模型更强的推理与对齐能力,从而提升其在长尾事件中的稳健性。

三、因果链数据集:学习基于因果推理的VLA

要使推理型VLA模型能够解释驾驶动作的原因并提升轨迹级性能,推理数据需与自车轨迹紧密关联。然而,自动驾驶领域现有的思维链(CoT)推理数据集普遍存在若干局限(如图2所示):

  • (1)行为描述模糊:自由形式的CoT标注可能无法明确指定具体驾驶动作,或选用与自车轨迹关联性较弱的表述;
  • (2)推理流于表面:部分推理轨迹仅描述场景观测或假设性因素,与自车行为缺乏直接因果关联,对提升训练后驾驶性能的帮助有限;
  • (3)因果混淆:推理轨迹可能包含未来时间窗口中的因果因素,而这些因素在模型训练时并不可观测。这一问题源于标注过程常暴露完整视频,未区分历史与未来片段。

为解决上述问题,本文提出一种标注框架,可在推理轨迹中强制加入显式因果结构。首先,本文定义了一套全面的高阶驾驶决策集合,这些决策与低阶自车轨迹直接对应;每个推理轨迹均关联一个显式驾驶决策,并仅包含驱动该决策的因果因素。通过精心选择关键帧以分割视频的历史与未来片段,确保所有因果因素均来自可观测的历史窗口,从而避免因果混淆。该设计确保每个推理轨迹均以决策为核心且具备因果关联,捕捉简洁可解释的因果关系,而非冗长的描述性叙述。由此构建的数据集称为“因果链(Chain of Causation, CoC)数据集”,可为学习决策因果性提供清晰监督,使推理型VLA在车载推理时能高效推理特定驾驶动作的原因。图3展示了该标注流程的整体框架。

结构化因果链

为提高标注效率,本文提出的标注框架将每个数据样本分解为三个结构化组件:驾驶决策、因果因素(关键组件)与组合CoC轨迹。因此,每个数据实例均构成包含这三个组件的结构化CoC样本。

驾驶决策:

为确保CoC数据以决策为核心,本文定义了一套封闭的高阶驾驶决策集合(如表1所示)。每个视频片段最多标注一个纵向决策与一个横向决策(或某一维度为“无”),对应关键推理时刻后自车执行的首个动作。这套标准化决策集合与低阶轨迹直接对齐,消除了对驾驶行为的自由形式模糊描述,确保每个推理轨迹均能明确指定所执行的决策。为保证语言一致性与多样性,最终CoC推理轨迹采用与这些驾驶决策对齐的简洁动词集合构建。

表1 用于将推理轨迹锚定到显式控制意图的封闭集驾驶决策(纵向与横向)

关键组件:

与闭集驾驶决策不同,因果因素定义为开放集,其类别与示例属性如表2所示。这种设计允许人工标注者或自动标注流程灵活指定仅影响驾驶决策的关键元素,同时保持输出结构化。

表2 可能作为驾驶决策因果因素的关键组件类别与示例属性

组合CoC轨迹:

确定驾驶决策与关键组件后,需将其以自然语言组织为连贯的CoC推理轨迹,捕捉所选决策背后的因果逻辑。由此,结构化CoC协议可确保:

  • (1)决策锚定:每个推理轨迹均锚定于关键时刻的单一显式决策;
  • (2)因果局部性:所有证据均来自观测历史窗口;
  • (3)标注经济性:仅包含与决策相关的因素。

数据筛选

在定义了CoC的结构化组件(驾驶决策、关键组件、组合CoC轨迹)后,下一步需确定何时对这些推理数据进行标注。并非所有视频片段都需标注,仅在可明确建立观测因素与自车后续决策间因果关联的时刻触发标注。因此,本文数据标注框架的核心环节是数据筛选——即识别这些关键推理时刻。

片段选择:

本文选择包含显式驾驶决策的片段用于CoC数据集标注,避免选择因果信息有限的低信号片段。这些片段分为两类场景:

  • (1)反应型场景:自车需针对特定事件立即调整行为,例如为前方车辆或红灯停车、调整横向位置以与附近障碍物/危险保持间距;
  • (2)主动型场景:自车无需立即反应,但需主动评估并预判潜在操作调整需求(因前方道路事件或障碍物)。例如,自车收到变道导航指令,但目标车道无足够空间,需持续寻隙与评估空间以准备变道操作。

本文采用基于规则的方法识别各类场景对应的片段,并平衡各类场景的片段数量以确保数据集多样性。表3提供了场景的详细定义。

关键帧标注:

每个原始片段包含20秒数据,在训练与评估均采用“2秒历史预测6秒未来”的配置下,可生成多个训练样本。因此,为CoC标注选择关键帧对最大化决策因果清晰度至关重要。

对于反应型场景,关键帧通常选择在自车启动与驾驶决策对应的行为变化前约0.5秒(短时间缓冲)。在该关键帧处,自车已在之前2秒历史窗口中积累了足够观测证据,可支撑即将执行的动作,有效避免因果混淆。由于关键帧位于决策时刻直前,可确保每个数据样本均关联具体驾驶决策,从而实现以决策为核心的CoC轨迹标注。

对于主动型场景,本文标注关键帧区间——即自车主动评估或准备潜在操作调整的时间窗口。表3提供了反应型与主动型场景的关键帧或关键帧区间的详细定义。仅对关键帧时间戳或关键帧区间内采样的关键帧样本标注CoC推理轨迹。

表3 CoC标注所用的片段选择场景及关键帧/关键帧区间定义

混合标注流程

为同时确保标注质量与规模,本文提出融合人工标注与自动标注的混合标注流程。尽管自动标注足以生成大规模推理型VLA训练数据,但约占总量10%的高质量人工验证数据对进一步有监督微调、自动标注评估与模型评估至关重要。该混合标注方法可平衡效率与准确性,同时支持大规模训练与可靠模型评估。

人工标注

两阶段标注流程:

根据前文所述的结构化CoC定义,人工标注者需完成两阶段流程,以生成简洁且因果锚定的CoC文本:

  1. 第一阶段(0-2秒):在观测历史窗口(关键帧前2秒内)从表2中识别关键组件。此步骤可确保仅考虑决策时刻前可获取的证据,避免因果混淆;这些关键组件可能影响下一阶段标注的驾驶决策。
  2. 第二阶段(0-8秒):(a)应用安全排除过滤器,移除包含非法或不安全驾驶行为的无效数据;(b)为每个维度(纵向/横向)选择关键帧后的首个驾驶决策(或“无”);(c)撰写CoC推理轨迹,仅参考第一阶段识别的、导致该驾驶决策的因果因素,并在适用时包含导航或规则信号。

为明确区分第一阶段与第二阶段、最大限度减少因果泄露,本文设计了一款标注工具,可显式区分历史视频片段(0-2秒)与未来片段(2-8秒)。该工具还提供可视化辅助功能,包括自车动力学图表(速度、加速度、转向角、转向灯)、叠加车道拓扑的鸟瞰图可视化,以及障碍物边界框,帮助标注者更准确地理解驾驶场景。

质量保证(QA):

为最大化标注质量并减少潜在偏差,本文实施了严格的QA流程。每个标注实例首先由另一名标注者进行质量检查;此外,根据标注者表现,随机抽取10%-20%的标注实例,由专业审核团队进行额外审核。质量检查与审核流程均遵循相同QA指南,核心规则总结于表4。该QA流程确保CoC的核心要求(决策锚定、因果局部性、标注经济性)得到严格执行,同时保留自然语言表达的灵活性。最终,本文在各类驾驶场景中生成了高质量CoC推理轨迹,代表性示例如图4所示。

表4 质量检查与审核流程的质量保证(QA)清单

自动标注

自动标注的关键帧选择:

为高效扩展训练数据并提升模型泛化能力,本文开发了CoC标注的自动标注流程。为识别自动标注的关键帧,首先定义一套低阶元动作,并实现相应的基于规则的检测器,以在帧级别推断这些元动作;随后,将元动作发生转换的帧视为决策时刻,从而在大规模数据中自动高效地确定关键帧。

元动作:

表5列出了完整的元动作集合。这些低阶元动作具有原子性,代表自车轨迹的瞬时运动学变化,因此与高阶驾驶决策存在显著差异。视频片段中的一个高阶驾驶决策通常由纵向与横向两个维度的一系列原子元动作构成。例如,“左变道”决策可能包含“左转向”、短暂“右转向”(以稳定车头方向)、随后“直行”的序列,通常还伴随轻微“加速”与“维持速度”。对于每个8秒数据样本,本文最多标注一个纵向与一个横向高阶驾驶决策,而原子元动作则以10Hz的频率自动标注。

表5 纵向与横向原子元动作列表

标注流程:

随后,本文采用GPT-5(OpenAI, 2025)等最先进VLM,通过多步推理流程执行离线自动标注。该方法可将大型模型的世界知识提炼为结构化CoC标注,同时平衡效率与成本。与人工标注流程类似,VLM生成的结构化推理轨迹包含识别的驾驶决策、关键组件,以及将驾驶决策与其因果因素关联的简洁推理轨迹。

为支持推理过程,自动标注流程向模型提供原始视频与辅助信号(包括自车轨迹、动态状态与元动作)。视频以2Hz采样,在平衡信息密度的同时,确保不超出自动标注模型上下文窗口的token预算。

为缓解因果混淆,通过提示引导VLM在识别关键组件时仅使用2秒历史视频;随后利用6秒未来视频、自车轨迹与元动作解决多模态歧义,并确定相应驾驶决策。在此过程中,模型会对识别的因果因素进行重要性排序,仅保留直接影响驾驶决策的因素纳入最终推理轨迹。

评估

对开放式文本(尤其是推理轨迹)的评估仍是自动驾驶研究领域的开放挑战,而评估CoC中的因果关系则进一步增加了复杂性。现有数据集通常采用以下评估方法之一:

  • (1)对小样本子集进行人工评估:在标注者指导充分时有效,但无法扩展到大规模评估或标注流程的快速迭代;
  • (2)基于启发式的指标(如BLEU、METEOR、CIDEr):仅捕捉表层文本相似性,无法反映底层因果推理,因此不适用于评估本文CoC数据集;
  • (3)基于LLM的自动评估:利用LLM对因果关系的推理能力,可扩展到大规模评估集,但LLM在评估复杂多步因果链时易产生幻觉。

由于这些挑战,现有研究往往缺乏可靠的推理数据集评估方法。

CoC评估流程:

为应对上述挑战,本文采用融合人工验证与LLM自动评估的混合评估策略。具体而言,选用GPT-5作为LLM评估器,并构建包含2000个样本的精选评估集,覆盖表3列出的代表性场景。为减少LLM评估中的幻觉,避免直接使用自由形式文本与评分结果,而是将评估过程分解为三个结构化子任务,分别覆盖驾驶决策、因果因素存在性与因果关系有效性。通过将这些评估维度重构为一系列“真/假”问题,使评估过程更具可解释性,且与人工判断更一致。

为验证可靠性,将基于LLM的自动评估与人工评估在同一版自动标注数据集上进行对比,发现两者对齐率达92%,证实了本文LLM自动评估方法的稳健性。通过该评估方法,本文发现所提出的结构化CoC推理轨迹相较于不强制显式驾驶决策与关键组件的自由形式推理轨迹,因果关系得分相对提升132.8%。

不完美自动标注的有效性:

需注意的是,即使可能,在因果效应评估中获得完美(100%)分数也并非自动标注数据有用性的必要条件。由于复杂驾驶场景中因果推理固有的模糊性,以及人工标注真值与评估指标中的噪声,100%一致性是否为合理或明确定义的目标尚不明确。相反,CoC自动标注的主要价值在于支持大规模有监督微调,以提升AR1在各类驾驶场景中的泛化能力。

实证结果(如第6节所示)表明,在自动标注CoC轨迹上训练的模型已比无推理监督的基准模型实现显著性能提升。此外,如第5节所述,本文训练流程还包含后续基于强化学习的后训练步骤,可进一步增强推理能力与因果一致性。同时,随着人工标注规模扩大,本文计划引入更多轮基于人工标注CoC推理轨迹的有监督微调,逐步提升因果锚定能力与可解释性。

四、训练策略

本文以Cosmos-Reason视觉-语言模型(VLM)为主干网络——该网络通过领域特定有监督微调(SFT)已具备基础物理推理能力,在此基础上,我们设计了三阶段训练策略,将其转化为具备推理能力的自动驾驶策略模型。如图5所示,每个阶段逐步增强模型在稳健且可解释驾驶中必需的核心能力:离散轨迹token训练并添加基于流匹配的动作专家,向VLM注入动作模态,使模型能够预测车辆控制输出;因果链(CoC)数据集进行有监督微调,教会模型生成因果锚定的解释,以优化驾驶决策;最后采用结合大型推理模型反馈的强化学习(RL),优化推理质量、使推理轨迹与执行动作对齐,并提升轨迹质量,最终实现可解释且安全的驾驶行为。

动作模态注入

双表示的设计动机:

激发推理能力

仅依赖有监督微调的局限性:

这一模仿学习阶段使模型能内化类人推理模式:不仅学习“执行何种动作”,还能理解“为何在特定视觉与场景线索下该动作适用”。如图8所示,在CoC数据上进行有监督微调的模型,其轨迹预测准确率已显著优于无显式推理监督的模型。然而,尽管有监督微调能让VLA模型生成推理轨迹,其性能仍受以下因素局限:

  1. 数据偏差与标注噪声:自动标注数据可能包含不完美的因果关系,导致模型过拟合于标注伪特征,而非学习稳健的因果推理;
  2. 泛化能力有限:模型可能仅记忆常见推理模式,缺乏深层因果理解,无法泛化到新颖场景;
  3. 视觉锚定薄弱:下一个token预测无法确保视觉一致性,模型可能虚构场景中不存在的因果因素(图10);
  4. 推理-动作不一致:联合优化未显式确保推理表述与预测轨迹的对齐,可能导致解释与行为矛盾(图11)。

基于强化学习的后训练

为解决有监督微调局限性,我们提出如图6所示的基于强化学习的后训练框架,优化三个互补奖励信号:推理质量(通过大型推理模型反馈)、推理-动作一致性,以及轨迹质量。与有监督微调不同——后者在教师强制(teacher forcing)下优化专家演示的似然,未考虑推理时的误差反馈——强化学习能对模型自身采样的轨迹提供显式推理反馈,使优化目标与系统实际部署方式对齐。该方法通过针对性反馈评估推理的因果正确性及其与执行动作的对齐性,在相同计算预算下显著提升模型稳健性与泛化能力。

后训练算法

奖励模型

提示:LLM推理评分规则
你是自动驾驶推理轨迹的专家评估者。推理轨迹需描述自车应执行的行为,以及导致该行为的原因与因素。你的任务是从“行为一致性”与“因果推理”两个维度,评分预测推理轨迹(PRED)与真值推理轨迹(GT)的对齐程度。评分范围为0-5分,具体规则如下:
5分:行为与因果推理完全一致;
4分:行为正确,因果推理基本一致;
3分:行为大致正确,但推理不完整或存在轻微错误;
2分:行为部分错误,或推理严重不一致;
1分:行为错误,或与真值矛盾;
0分:与真值完全无关或相反。

面向成本高效训练的后训练数据筛选

后训练基础设施

为开展强化学习实验,我们基于Cosmos-RL框架开发了定制版本,专门适配自动驾驶推理任务。该系统为大规模多模态强化学习提供可扩展、模块化的基础设施,与Alpamayo-R1系统的其他组件无缝兼容。其支持分布式数据加载、混合并行训练、基于vLLM的轨迹生成,以及跨多GPU节点的奖励计算,可实现高效、高吞吐量的策略优化。

实验结果

我们从多个维度对Alpamayo-R1(AR1)进行全面评估,包括推理能力、轨迹预测准确率与闭环驾驶性能。首先,图7显示:与仅输出轨迹的基准模型相比,本文提出的Alpamayo-R1在高难度场景(需复杂推理以优化驾驶决策)中表现显著更优。

评估协议

我们的评估策略包含四个互补组件:

  1. 开环轨迹预测:在常规与长尾驾驶场景中评估规划准确率;
  2. 闭环仿真:利用AlpaSim评估模型在真实场景中控制车辆时的安全性与稳健性;
  3. 消融实验:分析关键架构选择的影响,包括视觉-语言模型缩放、视觉编码策略、推理集成与动作解码策略;
  4. 实车道路测试:验证模型在自动驾驶场景中的真实世界部署能力。

数据集:

闭环评估:

已有研究表明,优异的开环结果并不一定转化为可靠的闭环驾驶性能。为填补这一差距,我们在AlpaSim 中进一步评估模型——这是一款基于最先进神经重建技术的开源端到端闭环模拟器。AlpaSim利用真实驾驶日志构建时序3D高斯溅射表示,在闭环评估中,当自车偏离记录轨迹时,可通过该表示合成新视角。评估过程中,预测轨迹由模型预测控制器(MPC)跟踪,车辆动力学遵循动态扩展自行车模型;交通智能体(车辆、行人)则遵循其记录轨迹行驶。

我们在75个高难度20秒场景中评估模型,这些场景的选择标准是“自车-智能体”与“智能体-智能体”交互密集。尽管场景数量看似有限,但它们均为精心筛选的“需复杂推理与交互决策”的安全关键场景。我们报告以下AlpaSim指标:

  1. 偏离车道率:自车驶出可行驶区域的场景占比;
  2. 近距离碰撞率:自车与其他交通智能体发生近距离碰撞的场景占比;
  3. AlpaSim评分:事件(偏离车道或近距离碰撞)之间的平均行驶距离(单位:km);
  4. 责任方AlpaSim评分:与AlpaSim评分定义相同,但仅统计自车为责任方的近距离碰撞(排除追尾类近距离碰撞)。

仿真在首次发生近距离碰撞或偏离车道事件时终止。为减少渲染伪影,自车与原始记录轨迹偏差超过4米的事件,均不纳入任何指标计算。

推理对驾驶策略的优化作用

开环性能提升:

如表6(常规场景)与表7(高难度场景)所示,集成CoC推理在两种设置下均显著提升开环轨迹预测性能:

  • 无路线信息时:AR1在6秒时域的minADE为0.955米,较基础模型提升4.1%,且优于仅轨迹预测(0.971米)与元动作(0.988米)基准;
  • 有路线信息时:性能提升更显著——AR1的minADE达0.794米,较仅轨迹预测基准(0.834米)提升4.8%;
  • 模型缩放增益:将参数扩展至3B时,性能进一步提升,AR1-3B(无路线信息)的minADE达0.908米,证明模型容量对复杂推理任务的重要性;
  • 高难度场景优势:在高难度场景中,AR1的性能提升更为突出——minADE达0.868米,较仅轨迹预测基准(0.994米)提升12%。

这些结果表明,显式推理能力使模型能更有效利用路线引导等场景信息,并更好地处理需预判未来交互的复杂驾驶场景。图8通过定性示例展示:基于CoC的模型能成功生成正确推理轨迹,并在高难度场景中为其他车辆让行,而基准模型则无法预判此类交互。

闭环性能提升:

如表8所示,AR1的闭环性能同样显著优于基准模型:与仅轨迹预测基准相比,AR1的偏离车道率降低35%(从17%降至11%),近距离碰撞率降低25%(从4%降至3%);整体AlpaSim评分从0.38提升至0.50,证明基于推理的决策能提升动态闭环场景中的安全性。图9展示两个定性示例,验证AR1在AlpaSim中高难度场景的闭环驾驶能力。

基于强化学习后训练的推理、一致性与安全性提升

尽管在CoC数据上进行有监督微调能使模型联合生成推理轨迹与动作,但无法保证推理具备因果锚定特性,也无法确保动作忠实遵循推理或符合人类驾驶规范。为解决这一问题,我们通过基于强化学习的后训练,同时提升推理质量、推理-动作一致性与轨迹质量。本节以在CoC数据上微调的0.5B AR1模型为基础,评估不同奖励组件对模型行为的影响。

利用大型推理模型反馈的价值:

为确保推理轨迹不仅流畅,还具备因果锚定与场景准确性,我们引入基于大型推理模型反馈的推理奖励。该奖励为每条生成推理轨迹的逻辑一致性与因果正确性提供连续评估信号。具体而言,在6个生成轨迹中,“最可能轨迹”的平均推理评分在应用推理奖励后提升约45%(从3.1分提升至4.5分)。

图10展示两个定性示例,对比后训练前后模型行为差异:

  • 左图(施工场景):有监督微调预训练模型忽略施工障碍,将场景描述为常规驾驶情境,未识别到需规避动作;后训练模型的推理则正确关注施工区域,解释“自车应向右微调以避开障碍物”;
  • 右图(行人场景):两名行人即将离开车道,有监督微调预训练模型忽略这一场景线索,未预判自车需准备加速;后训练模型则正确识别“行人已离开可行驶区域”,推理“自车可安全恢复行驶”。

强化推理-动作一致性的价值:

有趣的是,若后训练阶段仅优化推理奖励,虽能提升推理评分,但ADE指标与推理-动作一致性均会较基础模型下降。这表明:仅优化推理质量可能导致推理“脱离实际”或“过度自信”——模型生成流畅但因果脱节的解释,无法转化为连贯动作。因此,一致性奖励对将推理锚定到物理可行行为至关重要,可确保可解释性提升不以控制精度为代价。

具体而言,当联合优化推理奖励与一致性奖励时,后训练模型的性能表现为:

  • 最可能轨迹的ADE降低9.4%(从2.12米降至1.92米);
  • 推理评分提升45%(从3.1分升至4.5分);
  • 推理-动作一致性提升37%(从0.62升至0.85)。

这些结果证明两种奖励组件的互补性:推理奖励提升可解释性与因果锚定,一致性奖励确保生成推理能转化为忠实且更准确的运动行为。图11通过两个定性示例展示后训练对运动精度的提升:当模型推理“在停车标志处减速、停车后加速”时,对齐模型能忠实执行这一因果序列(平滑减速、完全停车、确认路口安全后加速),而有监督微调预训练模型则倾向于“中途停车且无法恢复行驶”。

引入安全奖励的价值:

尽管推理奖励与一致性奖励能提升可解释性与因果锚定,但它们未显式约束模型生成安全运动轨迹。为确保物理安全性,我们在后训练中引入安全奖励,惩罚不安全或物理不可行的轨迹。实证结果表明,添加安全奖励可进一步降低近距离碰撞率,稳定轨迹生成,且不损害推理质量。如表9所示,完整奖励配置(推理+一致性+安全)实现最低近距离碰撞率,同时保持ADE与推理-动作一致性的提升。

消融实验:视觉-语言模型主干网络选择

视觉-语言模型主干网络的选择对Alpamayo-R1的性能至关重要。本节从两个互补维度展开研究:模型规模的影响,以及物理智能(Physical AI)导向预训练的价值。这些消融实验共同证明:模型容量与领域专用预训练均为实现优异驾驶性能的关键。

模型规模消融

数据规模消融

与模型缩放互补,我们研究在架构与训练预算固定时,训练数据规模对驾驶性能的影响。我们在0.5B模型上训练不同数据量:10万、20万、50万、100万与200万个视频片段,所有实验的总训练步数固定。

如图13所示,性能随数据规模增大而持续提升,证明数据多样性对自动驾驶的价值:

  • 10万样本模型存在明显过拟合(无早停时1.111米,早停后1.016米);
  • 扩展至50万样本时,minADE达0.880米,较10万样本提升13.4%;
  • 200万样本模型实现最佳性能(0.874米),较10万样本提升14.0%。

这些结果与模型规模消融共同证明:模型容量与数据规模均为提升驾驶性能的有效维度,二者在实现稳健自动驾驶系统中具有互补作用。

Cosmos-Reason的物理智能能力

上述缩放实验虽证实模型容量的重要性,但未回答一个关键问题:在模型规模固定时,领域专用预训练是否有价值?如前文所述,Alpamayo-R1采用Cosmos-Reason作为视觉-语言模型主干网络——该模型通过物理智能数据(含驾驶场景)进行后训练。为验证这一架构选择的合理性,并证明物理智能导向预训练能在“仅缩放”基础上进一步提升驾驶专属理解能力,我们将Cosmos-Reason与同规模(7B)通用视觉-语言模型在公开驾驶基准上进行对比。

LingoQA基准评估:

表10展示在LingoQA基准上的零样本评估结果——该基准用于评估视觉-语言模型的驾驶场景理解能力。我们的Cosmos-Reason-7B模型准确率达66.2%,优于所有对比基准,包括GPT-4V(59.6%)、Qwen2-VL-7B(52.6%)、Qwen2.5-VL-7B(62.2%)、InternVL3.5-8B(58.6%)与DeepSeek-VL-7B(46.4%)。这一提升证明:物理智能导向有监督微调能显著增强模型在自动驾驶场景中的理解能力,补充图12所示的模型缩放收益。

轨迹解码策略对比:

消融实验:动作模态注入

消融实验:高效视觉编码

如表12所示:

  • 三平面多摄像头tokenizer(Ivanovic et al., 2025):仅增加6.3M参数,token数量减少3.6倍(从160个/图像降至45个/图像),且minADE与基准基本持平;
  • Flex(Yang et al., 2025):实现更显著的token压缩——最高达20倍(从160个/图像降至8个/图像),仅增加61.6M参数,且驾驶质量与基准持平。

Alpamayo-R1默认采用单图像tokenization,原因在于最优编码策略需根据摄像头数量、时序帧数与摄像头分辨率动态调整:例如,摄像头数量少、历史短时域场景更适合单图像tokenization;摄像头数量多、历史短时域场景更适合三平面;摄像头数量多、历史长时域场景则更适合Flex。

实车道路测试

为验证AR1的真实世界部署能力,我们将模型部署于测试车辆,在城市驾驶环境中开展道路测试。车辆成功完成复杂城市场景的无人工干预导航,证明模型能处理仿真之外的真实驾驶条件。图14展示一个路口场景:AR1准确识别交通状况,生成清晰简洁的推理轨迹,并执行相应驾驶动作。这些测试证实:仿真中的性能提升能成功迁移到真实世界自动驾驶场景。

实时推理性能:

实车部署的关键要求是实时推理能力。我们在NVIDIA RTX 6000 Pro Blackwell平台上对AR1进行基准测试,端到端推理延迟达99毫秒,满足自动驾驶的实时需求(通常要求100毫秒以内)。表13详细拆解推理流水线耗时,并与其他设计选择对比:预填充(prefilling)阶段通过Transformer层处理视觉token与路线信息,生成KV缓存,供后续推理与轨迹解码使用。

六、结论

在本研究中,我们提出了Alpamayo-R1(简称AR1)——一种视觉-语言-动作(VLA)模型,该模型将结构化思维链推理能力与轨迹预测相融合,旨在提升自动驾驶系统的性能,尤其针对长尾、安全关键型场景。为使模型能够生成具备因果锚定特性的推理内容,我们构建了因果链(Chain of Causation, CoC)数据集:通过“大规模自动标注+人机协同”的混合标注流程生成,确保推理数据的高质量与规模化。此外,我们通过强化学习(RL)实现推理与动作的对齐,确保模型生成的推理轨迹与实际执行的驾驶行为保持一致。

通过开环指标、闭环仿真及消融实验的全面评估,我们证实:AR1相较于端到端基准模型实现了持续性性能提升,尤其在涉及复杂智能体交互的高难度场景中,性能增益更为显著。

未来工作:

尽管当前评估聚焦于内部数据集与LingoQA基准,但我们计划将评估范围扩展至更多自动驾驶规划与决策领域的公开基准。这将有助于更全面地展现Alpamayo-R1在不同评估协议下的能力,同时实现与领域内其他最先进方法的直接对比。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论