2026-01-14 探寻世界模型最优解!SGDrive:层次化世界认知框架,VLA再升级(理想&复旦等)

原文链接:https://mp.weixin.qq.com/s/mO3sEasfHKCWNKEhGgQ2uA

复旦大学、上海创智学院、理想汽车、同济大学和萨里大学联合完成的新工作 – SGDrive。在这篇工作里面柱哥看到了一些对量产的思考,比如高速直行时应该扩展感知范围,而转弯时则应聚焦弯道内侧(图6)。

理想的情况下,自动驾驶应该像人类一样,分层次的理解世界:先感知整体环境(Scene Cognition) → 再聚焦影响自车行为的关键目标(Agent Cognition) → 最后形成局部的驾驶目标(Goal Cognition),并进一步生成Action(轨迹)。但现有的VLM虽然具有强大的认知能力,但作为通用模型,缺乏对驾驶领域的专业理解,特别是在3D空间和时间维度上难以建立结构化的时空表征。

这篇工作也在探索一个问题:世界模型到底应该生成什么才能对VLA有效? 生成图像、生成结构化信息,还是生成隐特征? 生成图像会带来冗余的像素信息,预测结果与当前观察存在大量重叠且缺乏空间信息;生成结构化信息虽有空间维度,但大部分信息仍与自车运动状态不相关。

SGDrive提出了以隐特征形式提取全面的驾驶相关世界知识,并围绕驾驶领域的知识层级显式组织VLM的表征学习。该框架建立在预训练VLM之上,将驾驶理解分解为场景-智能体-目标的层次结构,以贴合人类驾驶认知:驾驶者先感知整体环境,再关注与安全密切相关的关键参与者及其行为,最后在执行动作前制定短期目标。这种结构化知识不仅捕获场景的几何布局和智能体的状态,还包括短期驾驶目标等高层次信息。关键在于,模型关注的是那些可能影响自车运动的智能体,而非所有可见对象,这种根据驾驶相关性自适应生成需要关注范围的方式,更符合人类驾驶行为。通过显式激活模型对这种结构化世界知识的感知和表征能力,从根本上增强VLM的3D空间感知,使其能够更好地指导轨迹生成并避免潜在碰撞。

在NAVSIM基准测试上的大量实验表明,SGDrive在camera-only方法中实现了PDMS和EPDMS的SOTA性能,并在关键的碰撞相关指标NC和TTC上取得最佳分数,证明了这是最安全的自动驾驶方案,同时也证明了层次化知识结构在将通用VLM适配到自动驾驶任务中的有效性。

  • 论文标题:SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving
  • 论文链接:https://arxiv.org/pdf/2601.05640

一、背景回顾

近年来,端到端(E2E)自动驾驶技术取得了重大进展。从早期的UniAD将感知、预测、规划等多个子任务统一到单一框架,到VAD采用向量化表征提升模块化设计,再到SparseDrive通过稀疏表征提高系统效率和可扩展性,端到端方法不断演进。然而,这些方法往往缺乏显式的因果推理和高层场景理解,在复杂的长尾交通场景中表现出明显局限。

大语言模型(LLM)和视觉-语言模型(VLM)的出现,促使研究者尝试将其丰富的先验知识和复杂推理能力整合到驾驶任务中,以缓解传统端到端方法的不足并防止不安全的操作。

为了将预训练VLM知识迁移到自动驾驶,研究界探索了多条技术路线。一些早期工作尝试直接以文本形式生成轨迹坐标,将驾驶规划问题转化为语言生成任务。这种方法充分利用了VLM的语言理解能力,但在处理连续空间的轨迹时存在精度损失。借鉴具身智能领域的研究成果,后续方法采用基于扩散的解码器来生成驾驶轨迹。VLM提取多模态特征,扩散模型负责将这些特征转化为平滑连续的动作序列。

虽然上述方法取得了令人印象深刻的结果,但它们仍存在几个关键局限:

(1) 缺乏空间感知能力

VLM天生专注于语义理解,在2D图像上进行视觉-语言对齐训练。然而,自动驾驶需要精确的3D空间推理能力——理解物体的深度、距离、相对位置以及场景的几何结构。现有VLM缺乏基础的空间和几何知识,难以准确感知3D驾驶环境的布局,这导致在处理复杂交通场景时容易出现空间判断错误。

(2) 难以辨别安全关键信息

当前方法往往让VLM处理整个场景的所有视觉信息,缺乏对重要信息的选择性提取机制。在真实驾驶场景中,并非所有对象都同等重要——距离较远的静态物体、路边建筑等背景元素对当前驾驶决策的影响微乎其微。人类驾驶员会自然地将注意力聚焦在那些可能影响行车安全的关键智能体上,如前方减速的车辆、横穿马路的行人等。现有方法未能建立这种注意力机制,导致模型将有限的表征能力分散到无关信息上,从而影响对安全关键因素的准确建模。

(3) 缺乏未来世界状态预测

安全驾驶的核心在于预判——不仅要理解当前状态,更要预测未来演变。现有方法缺乏对未来世界状态的时间建模能力,无法回答”周围场景将如何变化”、”其他车辆会做出什么动作”等关键问题。这种缺陷使得模型只能进行反应式规划,而非主动式的安全防御。

因此,我们认为:之前的方法未能充分表征世界并预测其未来状态,从而阻碍了安全可靠驾驶的实现。

二、核心方法:层次化世界认知框架

整体设计理念

问题定义与数学表述

世界查询编码器:融合多模态先验

层次化世界知识表征的三个维度

我们从三个互补的角度指导模型获取全面的驾驶相关世界知识,这种设计受到人类驾驶认知的启发:

(1) 场景几何布局感知 – Scene维度

(2) 安全关键智能体检测 – Agent维度

(3) 短期驾驶目标预测 – Goal维度

结构化块状注意力掩码

扩散规划器:从世界知识到安全轨迹

两阶段训练策略

我们的SGDrive采用两阶段训练过程来有效管理世界表征和动作生成的不同任务空间。

阶段一:监督微调 (SFT) – 世界知识学习

阶段二:扩散规划器训练 – 动作生成

三、实验结果

主要结果

基于SFT的NAVSIM v1结果 我们在NAVSIM测试集上将SGDrive与最先进方法进行了对比。基于InternVL3-2B骨干网络,我们的方法达到了新的最先进水平87.4 PDMS。这一结果值得注意有几个原因。首先,它超越了更大的通用VLM如InternVL3-8B和QwenVL2.5-8B达4.1 PDMS,展示了我们专用架构的卓越性能。其次,SGDrive-2B模型超越了之前最先进的驾驶VLM方法Recogdrive-8B 0.6 PDMS。这说明了引导VLM学习和预测层次化世界知识的有效性。第三,SGDrive仅依赖图像输入就超越了列表中绝大多数同时依赖图像和激光雷达输入的端到端方法。至关重要的是,我们的方法在关键的碰撞相关指标NC和TTC上取得了最佳分数。这有力验证了我们的核心假设:通过显式预测时空布局、动态智能体交互和短期目标,模型获得了卓越的时空感知能力,这对于预测和避免潜在碰撞至关重要。

基于RFT的NAVSIM v1结果 虽然我们方法的核心目标是学习和预测层次化驾驶世界知识以增强驾驶安全,但它也可以与现有RL框架无缝集成。在与RecogDrive相同的RL训练配置下,我们的方法取得了91.1的PDMS,超越所有现有方法,包括那些使用激光雷达信号输入的方法。与其他基于RL的方法相比,我们的模型在NC和DAC上取得最佳性能,表明学习到的驾驶世界知识有效降低了碰撞风险并确保了对可行驶区域的遵守。

基于SFT的NAVSIM v2结果 为了全面评估我们的方法,我们采用了扩展PDMS指标。如表所示,SGDrive达到86.2 EPDMS,超越之前最先进的ReCogDrive-8B 2.6个百分点。我们的方法在安全关键的NC和TTC指标上提供了最强结果,同时在新引入的TL、LK和EC指标上保持竞争性能。这些结果共同证明了SGDrive在扩展评估协议下建模驾驶相关世界知识的有效性和鲁棒性。

消融实验

驾驶世界知识预测的有效性  我们首先评估阶段1中驾驶世界知识学习的有效性,其中轨迹以文本形式生成。当模型仅训练表征当前多层世界状态结构时,如Exp.(b)所示,相比Exp.(a)基线,PDMS提升了2.5个百分点。这一显著增益表明我们的层次化世界表征成功激活了模型对3D驾驶环境的理解,从而产生更准确的轨迹预测。当在Exp.(c)中进一步整合未来世界预测时,性能提升至85.5 PDMS,与Exp.(b)相比,NC和EP指标也获得了额外改善。这些结果表明,使VLM能够预测未来世界演变提供了更强的安全意识和规划效率,最终产生可靠的自动驾驶行为。

结构化注意力掩码的消融  我们将结构化注意力机制与因果注意力方法进行了对比。因果注意力将每个世界查询暴露给所有前置token,引入跨类别噪声和语义泄露;这会破坏世界表征并导致车辆采取过于保守的行为(例如过度减速以避免潜在碰撞),从而降低驾驶效率。相比之下,我们的结构化注意力将可见性限制在同类型信息内,产生更清晰、任务特定的嵌入。如表所示,这种设计产生了有利的权衡:它提升了EP(从80.1到81.2),获得更高的整体PDMS和更真实的驾驶行为。

定性结果

与之前方法的对比  我们选择了两个代表性场景与之前的最先进方法RecogDrive进行定性对比。在第一个涉及多个道路使用者的场景中,RecogDrive的预测轨迹显著偏离真实值,导致潜在碰撞。相比之下,我们的SGDrive通过显式的安全关键智能体检测,生成了最优且无碰撞的轨迹。在第二个相对开阔但弯曲道路的场景中,RecogDrive的预测偏出车道并与路边护栏碰撞。然而,我们的模型准确感知了场景的几何布局并成功避免了碰撞。这些结果表明SGDrive有效学习了结构化的驾驶世界知识,并能够合理地推断它以确保安全和理性的驾驶行为。

显式世界知识表征  我们提供了模型预测与真值标注之间的定性对比。可视化显示在场景-智能体-目标层次上有很强的对齐。这种一致性表明我们的模型学习了丰富的驾驶世界知识,能够可靠地感知和表征当前状态及其短期未来演变。

自适应几何场景感知  如图所示,SGDrive根据自车的运动状态和导航命令自适应地感知驾驶场景。例如,在高速行驶时扩展其感知范围,而在转弯机动时将感知焦点重定向至转弯方向。这展示了对驾驶相关世界知识更结构化和有效的表征,提供了有力证据表明SGDrive成功激发了VLM的世界建模能力。

四、结论

我们引入了SGDrive这一新的框架,将VLM的表征学习显式地围绕驾驶特定的知识层次进行结构化,实现更安全可靠的自动驾驶。建立在预训练VLM骨干网络之上,SGDrive将驾驶理解分解为场景-智能体-目标的层次结构来解耦对驾驶环境的理解:通过场景几何、道路参与者以及驾驶目标来刻画当前世界,并进一步外推它们在未来的演化。

为此,我们设计了一种结构化的注意力掩码机制,以防止信息泄漏并抑制跨类别噪声。最后,通过集成一个基于 DiT 的规划器,我们的方法使用推断得到的驾驶世界知识来约束轨迹生成。在 NAVSIM 上的全面实验表明,我们的方法是有效的,并在安全驾驶方面达到了最先进的性能。为紧凑而全面的格式用于轨迹规划。为了支持这一点,我们设计了结构化注意力掩码机制来防止信息泄露并抑制跨类别噪声。最后,通过集成基于DiT的规划器,我们的方法使用推断出的驾驶世界知识来调节轨迹生成。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论