2025-09-11 港科&理想最新!OmniReason: 时序引导的VLA决策新框架

原文链接:https://mp.weixin.qq.com/s/8An12opMcWydQ0lKNEqa5g

近年来,自动驾驶领域的视觉 – 语言模型(VLMs)在空间推理方面展现出令人瞩目的能力,但现有方法多聚焦于静态场景理解,却忽略了真实驾驶场景中至关重要的时间维度。为解决这一关键局限,香港科技大学(广州)与理想汽车的团队提出了 OmniReason 框架 —— 一种新型视觉 – 语言 – 动作(VLA)框架,通过联合建模动态 3D 环境及其潜在决策过程,构建强大的时空推理能力。具体而言:

首先构建了用于模型训练的大规模 VLA 数据集 OmniReason-Data,包括 OmniReason-nuScenes 和 OmniReason-Bench2Drive;该数据集通过新颖的幻觉抑制自动标注流程,提供了带有密集时空标注和自然语言解释的样本,确保了物理合理性和时间连贯性。

其次为充分利用数据中的多模态监督信息,进一步提出了 OmniReason-Agent 架构;该架构集成了用于持久场景上下文建模的稀疏时间记忆模块和生成人类可解释决策理由的解释生成器,并通过时空知识蒸馏方法有效捕捉时空因果推理模式。

在开环规划任务和视觉问答(VQA)基准上的大量实验结果表明,所提方法实现了最先进的性能,同时为在复杂动态环境中运行的、可解释且具有时间感知的自动驾驶车辆建立了新能力。

  • 论文链接:https://arxiv.org/abs/2509.00789

引言

端到端学习已迅速成为自动驾驶的基础范式,促进了感知、预测和规划在统一框架下的联合优化。借助大规模驾驶数据集,这些模型能够直接从原始传感器数据中学习驾驶策略,在各种真实场景中展现出令人印象深刻的性能。然而,尽管取得了这些进展,当前的E2E方法仍面临持续的挑战:它们往往难以泛化到稀有的长尾事件,对高级场景语义理解不足,并且缺乏在开放世界环境中所需的自适应且可解释的推理能力。

与此同时,大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,凸显了它们在上下文学习、常识推理和超越训练分布的泛化能力方面的卓越表现。这些新兴能力为提升自动驾驶系统的智能性和鲁棒性提供了极具吸引力的机会,特别是在面对真实世界、安全关键的部署复杂性时。然而,直接将现有的VLM应用于自动驾驶存在显著挑战。大多数VLM主要针对静态二维视觉语言任务进行优化,限制了其在丰富、动态的三维驾驶环境中的空间推理和全面场景理解能力。更关键的是,缺乏显式的时间建模机制使得这些模型无法有效推理随时间展开的交互、运动和因果关系。此外,它们倾向于产生幻觉式或不可靠的描述,严重影响了自动驾驶等高风险应用所需的可信度。因此,一个重要的技术难题浮现出来:如何有效利用大型VLM的泛化和推理能力,开发能够在快速变化的真实环境中生成可靠、时间连贯且可解释驾驶动作的视觉-语言-动作(Vision-Language-Action,VLA)框架?

为此,本文提出了OmniReason-Data,包含两个大规模、类人VLA数据集:OmniReason-nuScenes和OmniReason-Bench2Drive。这些数据集提供了丰富的、时间密集的标注,融合了人类先验知识、因果推理链和面向场景的描述,涵盖了多样且具有挑战性的驾驶场景。借助多模态监督和自然语言推理,OmniReason提升了自动驾驶基准的真实性、可解释性和覆盖度,为场景理解和动作生成研究奠定了坚实基础。

基于这些数据集,进一步提出了OmniReason-Agent,一种新颖的端到端VLA模型,专门设计用于利用OmniReason数据集中多层次的监督信息。关键在于,OmniReason-Agent通过知识蒸馏框架,将人类类先验和时空因果推理编码并注入感知、规划和动作全流程。通过从丰富的OmniReason数据集中蒸馏结构化推理、场景分析和专家决策模式,模型能够内化以人为中心的知识和因果推断,从而实现更具可解释性、可靠性和上下文感知的自动驾驶行为。大量实验和消融研究表明,该方法在安全性、舒适性和可解释性指标上均达到最先进水平,在决策质量和解释能力上显著缩小了自动驾驶系统与经验丰富人类驾驶员之间的差距。

本文的主要贡献总结如下:

引入了OmniReason-nuScenes和OmniReason-Bench2Drive两个全面的VLA数据集,强调基于空间和时间上下文的因果推理,覆盖了多样且复杂的驾驶场景。通过融合人类先验知识、动态场景的分步推理以及详细的上下文感知描述,OmniReason树立了自动驾驶研究中可解释性与真实性的新标杆。

设计了基于模板的标注框架,建立在结构化场景分析之上,能够自动生成高质量、可解释的语言-动作对,适用于多样驾驶场景。该方法确保了监督的准确性,减少了幻觉现象,并提供了丰富的多模态推理信息,适合模型训练和全面评估。

提出了OmniReason-Agent,一种融合时间性三维知识和因果推理的端到端VLA架构,通过知识蒸馏将专家决策模式和自然语言推理注入模型,实现上下文感知且高度可解释的自动驾驶行为。

在开放式规划和驾驶视觉问答(VQA)基准上的大量实验与消融研究表明,OmniReason-Data和OmniReason-Agent在安全、舒适和解释质量指标上均达到最先进水平。该方法显著缩小了自动驾驶车辆与人类驾驶车辆之间的差距,提升了真实场景下自动驾驶的可靠性和理解能力。

相关工作回顾

面向自动驾驶的语言增强数据集

当前数据集的发展展示了从单一任务标注(如目标识别)向综合场景理解的明确演进轨迹,涵盖多传感器流并应对运动预测和端到端驾驶等复杂挑战。近年来大型语言模型(LLMs)的突破,促使视觉语言驾驶数据集的出现,旨在捕捉环境语义和动作推理。BDD-X率先提供了说明自车动机的自由形式描述,而BDDOIA则提供了针对物体引发反应的闭式解释。DRAMA进一步扩展,加入了风险感知标注和安全关键指令。OpenDV-2K通过从公开视频自动生成文本驱动的动作对实现了规模化。然而,这些资源主要提供高层的离散指令,缺乏详细机动所必需的精确轨迹标注。

新兴数据集如HAD、Talk2Car、Talk2Car-Trajectory、DriveLM、Omnidrive和CoVLA尝试通过轨迹级动作标注来填补这一空白。尽管如此,它们在时间和空间驾驶场景的多样性方面仍然有限,限制了对具备全面因果推理能力的视觉-语言-动作模型的充分评估和训练。

基于多模态大型语言模型的自动驾驶

近期自动驾驶领域内,利用多模态大型语言模型(MLLMs)的研究日益增多,涵盖多样的架构范式。基于提示的方法如GPT-Driver和LLM-Driver通过将感知状态编码为文本提示实现场景理解和高层规划,而端到端框架如DriveGPT4则直接对原始传感器输入进行分词,以预测控制信号。混合架构代表如LMDrive、DriveMLM和CarLLaVA则采用级联设计,通过中间特征融合连接视觉编码器与专用控制解码器。

尽管方法上取得了进步,现有系统在建模动态环境刺激与车辆响应之间的因果关系方面仍存在固有限制,而因果关系推理是复杂场景中具备可解释决策能力的关键。我们的工作通过将视觉语言模型与因果推理问答机制相结合,填补了这一空白,建立了一个能够基于时空依赖关系进行推理而非表面相关性的可解释框架。该方法独特地支持零样本端到端规划能力,突破了以往研究中仅基于刺激-响应映射的局限,实现了对因果-时间推理原则的显式落地。

算法详解

OmniReason-Data

我们提出了 OmniReason-nuScenes 和 OmniReason-Bench2Drive 两个数据集,基于 nuScenes 和 Bench2Drive 框架中的时空因果推理。这些数据集包含高质量的视觉问答(VQA)对,涵盖静态与动态描述,以及四维域内的因果推理和动作信息。OmniReason 利用人类先验知识、场景感知的空间真值、多视角视频流和多模态大语言模型(MLLM),实现对时空信息的理解和因果推理,如图 1 所示。

数据标注流程

如图 1 所示,我们设计了一个统一且具场景感知能力的 VQA 数据标注流程,紧密结合人类先验知识、任务分解和大语言模型推理,用以构建 OmniReason 数据集。该流程始于同步的多视角视频流、全面的目标级空间标注以及自车状态数据,这些均采集于全球公开基准数据集和 Bench2Drive。这些原始数据被解析成以自车为中心的时序数据库,作为后续标注的基础。数据库中每一帧围绕驾驶上下文组织,编码了详尽的信息,如环境描述、静态与动态目标、动作及轨迹,反映了人类驾驶员观察到的丰富时空信号。

在此结构化数据库基础上,我们应用精心设计的基于规则和原则的模板,体现人类驾驶先验知识及明确的推理重点,指导语言-动作对的生成。我们的框架包含场景级提示,指引模型从多角度分析驾驶上下文,如环境理解、静态场景分析、动态目标分析以及动作与轨迹规划。之后,Qwen2.5VL 72B多模态语言模型接收这些多视角时空输入、结构化提示以及明确的人类式任务需求。如图 1 所示,模型的任务不仅是生成准确的场景描述,还要生成多步因果链,阐释代理行为、环境上下文和交通规则因素如何随时间相互作用。

该流程系统性地整合了时空理解、因果推理与未来动作预测,产出综合性的标注结果,既包含细粒度场景分析,也包含基于观测数据的可解释思维链推理。生成的样本通过精心设计的问题模板结构化,产出多样化的 VQA 对,既具备抵抗幻觉的鲁棒性,又极具信息量,适合自动驾驶模型的训练与评测。此方法确保所得数据集捕捉丰富的时间动态和因果关系,同时严格对齐现实驾驶场景。

OmniReason-Agent

本文提出了 OmniReason-Agent,一种端到端的自动驾驶框架,通过三个协同组件将视觉-语言理解与可执行轨迹生成统一起来,如图2所示。该流程首先通过分层视觉主干网络将多视角摄像头输入编码为时空 token,其中稀疏时序记忆模块采用内存压缩查询来聚合长距离视觉上下文,同时降低计算复杂度。随后,VLM 推理核心结合提炼后的场景特征、历史驾驶状态和自然语言指令,通过冻结的 VLM 及轻量级适配器执行实时决策。

稀疏时序记忆模块

训练目标

实验结果分析

实验设置

数据集

本工作提出的 OmniReason 数据集涵盖开放环规划、闭环规划和 VQA(视觉问答)任务。我们在 nuScenes 基准上对 OmniReason-Agent 的开放环规划能力进行评估,使用 1 秒、2 秒和 3 秒时刻的 L2 位移误差,以及预测时域内的平均碰撞率(CR)和交互率(IR)作为规划性能指标。为进一步考察模型的场景理解与推理能力,我们在指令微调后使用自主构建的驾驶 VQA 数据集对其进行评测。VQA 评测采用标准指标,包括 CIDEr(CI-r)、BLEU-1(BL-1)、BLEU-4(BL-4)、METEOR(ME-R)、ROUGE-L(RO-L)、准确率(Precision)和召回率(Recall),以全面分析模型的语言理解和多模态对齐能力。

实现细节

所有实验均在 128 张 NVIDIA H20 GPU(每卡 96GB 显存)上完成。视觉特征提取部分采用 EVA-02-L作为视觉编码器,通过遮挡图像建模和 CLIP知识蒸馏的方式进行预训练,以确保视觉特征和语言表示之间的高度对齐。LLaVA v1.5作为基础大模型,2D 预训练阶段的数据组成与训练配置保持一致。在微调阶段,使用 AdamW优化器,批量大小设为 16。优化时对学习率进行区分:投影模块学习率为 4 × 10⁻⁴,视觉编码器和大语言模型则用更低的 2 × 10⁻⁵ 学习率以保留其预训练知识。整个微调过程采用余弦退火调度策略,以保持训练稳定性并获得最优收敛效果。

开环轨迹规划任务

表 2 详细比较了 nuScenes 数据集上的开放环规划方法。所提 OmniReason-Agent 以平均 L2 误差 0.34 米取得最低值,与顶尖方法 ORION 持平,且优于其他基线方法,如 BEV-Planner 的 0.55 米、DriveVLM 的 0.40 米和 VAD-Base 的 1.25 米。在碰撞率方面,OmniReason-Agent 平均为 0.40%,略高于 Senna 的最佳结果 0.12% 和 ORION 的 0.37%,但仍低于大多数其他基线。违规率上,OmniReason-Agent 创造了新的最优纪录,平均为 3.18%,超越了所有之前报道该指标的方法,包括 BEV-Planner 的 4.26%、VAD-Base 的 3.82% 及 Omni-Q 的 4.59%。在所有评估时间段内,OmniReason-Agent 在安全性和轨迹精度上均展现出优越或极具竞争力的表现,彰显了其推理框架在严格评测协议下避免显式自车状态泄露情况下的有效性。

驾驶视觉问答任务

如表 3 所示,OmniReason-Agent 在 OmniReason-nuScenes 和 OmniReason-Bench2Drive 两个基准上针对所有指标均显著优于现有最先进的开源多模态大模型(MLLM)。在 OmniReason-nuScenes 上,本方法在 CIDEr 指标上实现了 37.6% 的相对提升,BLEU-1 和 BLEU-4 指标则分别有高达 100.1% 和 224.0% 的更大幅度提升。OmniReason-Bench2Drive 上性能同样持续领先,OmniReason-Agent 在 CIDEr、BLEU-1 和 BLEU-4 指标上分别较最佳基线提升了 9.0%、53.6% 和 210.8%。值得注意的是,这些显著提升在 ROUGE-L 指标上也得到了持续体现。这些全面的结果不仅验证了 OmniReason-Agent 增强的多模态推理能力,也奠定了其在自动驾驶场景 VQA 任务中的新一代性能标杆。

消融研究

不同语言组件分析。表 4 展示了 OmniReason-Agent 在 OmniReason-nuScenes 数据集上针对不同语言组件的详细评测。完整配置中融合了环境描述、动态与静态对象、推理和动作组件,取得了最优表现,BLEU-1 最高达 51.54,准确率为 53.32,召回率为 55.19。值得注意的是,单独加入环境描述就使 BLEU-1 得分较基线提升了 7.6%,体现了上下文理解的重要性。动态对象描述的引入尤其有助于安全性,令碰撞率降至最低的 0.37%。在所有配置中,L2 误差保持稳定在 0.34,体现了模型稳健的轨迹预测能力。此外,环境描述与静态场景分析的结合带来了最低的交互率 3.08,表明全面的空间上下文显著提升了模型预测和安全通过复杂路口场景的能力。这些结果展示了 OmniReason-Agent 全面的场景理解能力,尤其在动态场景处理及环境上下文融合方面表现突出。系统化的组件逐项评估为深入理解模型在多样驾驶环境和任务需求下的优势提供了宝贵视角。

时序记忆模块效果验证。表 5 给出稀疏时序记忆模块的消融结果。引入时序记忆模块后,开放环驾驶表现得到提升,L2 距离、碰撞率和交互率均较无记忆基线有所下降。具体而言,L2 距离从 0.38 降至 0.34,碰撞率从 0.44 降至 0.40,交互率从 3.65 降至 3.18。尽管 VQA 的 BLEU-1 和准确率略有降低,召回率有所提升,表明模型对重要时序信息更加敏感。这些结果表明时序记忆模块增强了顺序推理能力,有助于实现更精确且更安全的驾驶表现。

定性结果

动作生成与因果推理。图 4 展示了 OmniReason 在场景理解、动作生成和因果推理方面的能力。结果显示,OmniReason 不仅能准确感知详尽的场景信息,识别影响自车行为的关键对象,还能有效模拟人类先验并推断适宜的运动决策。附录 B 中提供了更多结果。这些发现表明,即使在极端情况下,模型依然保持稳健表现,进一步突出其卓越的推理与决策能力。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论