原文链接:https://mp.weixin.qq.com/s/WKq5Z4OSwZn-MCcuzCEtbQ
传统VLM在自动驾驶中“看得懂语言,却看不透几何”。即便通过构造Q&A数据进行辅助训练,也只能做表层补强,难以真正弥补跨视角3D空间理解的核心短板。天津大学智能与计算学部联合小米汽车团队提出VGGDrive,不再停留在数据层面的修补,而是首次从能力结构层面完成升级——开创性地引入成熟3D基础模型为VLM构建“几何底座”,提出了一种以3D模型赋能VLA的新技术范式,为自动驾驶体系提供了可扩展、可持续进化的能力增强路径。其核心创新在于设计了一个即插即用的跨视角3D几何赋能器(CVGE)。通过分层自适应注入机制,在不破坏原有VLM架构的前提下,实现冻结3D基础模型与VLM的深度耦合,将3D几何特征高效注入模型内部,真正打造具备跨视角3D几何建模能力的自驾VLA模型。更重要的是,VGGDrive并非局限于单任务优化,而是在五个主流自动驾驶基准上实现全面提升,覆盖跨视角风险感知、场景理解、运动与状态预测以及轨迹规划,真正实现从感知到决策的全链路能力增强。相关研究成果已发布,项目开源地址也同步公开~

论文链接:https://arxiv.org/pdf/2602.20794
开源地址:https://github.com/WJ-CV/VGGDrive
VLMs在自动驾驶中的先天短板
视觉语言模型虽能完成高层场景理解和决策辅助,甚至向端到端的视觉-语言-动作(VLA)模型演进,但在自动驾驶的复杂开放环境中,安全导航高度依赖精准的空间感知能力。此前的改进方案要么通过构建大规模问答数据集教VLMs空间概念,却无法赋予其扎实的几何先验;要么在VLMs上新增独立动作解码器专攻轨迹预测,却割裂了场景理解与决策制定,均未能从根本上解决问题。同时,现有3D基础模型与VLMs的融合方案,多针对室内静态单相机场景设计,简单的特征拼接/相加策略,也无法满足自动驾驶户外动态多相机场景的高精度、高鲁棒性要求。

VGGDrive架构的三大关键设计
VGGDrive的核心思路,是将成熟3D基础模型(VGGT)的跨视图几何定位能力深度注入基础VLM,通过即插即用、解耦设计,让VLMs拥有真正的3D几何感知能力,且不破坏原有模型架构。其核心由三大组件构成:
- 基础VLM骨干:选用Qwen2.5-VL-7B作为基础,处理多视图图像和文本指令,完成视觉、文本特征的提取与初步推理;
- 跨视图3D几何使能器(CVGE):作为核心创新模块,建立可学习的跨模态交互机制,让2D视觉特征能自主从3D几何特征中挖掘关键空间信息,实现从“被动接收”到“主动探索”的转变;
- 分层自适应注入机制:解耦基础LLM的解码器层,将CVGE增强后的3D特征,分层次、结构化地注入到各层的2D视觉嵌入中,在模型内部建立稳固的几何锚定,让3D几何知识深度指导驾驶任务推理。
简单来说,VGGDrive通过冻结的VGGT模型提取多视图图像的3D几何特征,再经CVGE完成3D与2D特征的深度融合,最后通过分层注入机制让3D能力渗透到VLM的每一层推理中,从底层补齐了VLMs的空间感知短板。

五大基准全面领先,提升核心任务性能
为验证VGGDrive的有效性,团队在NAVSIM、NuInstruct、DriveLM、OmniDrive、nuScenes五大主流自动驾驶基准上开展了全面实验,覆盖跨视图风险感知、运动预测、轨迹规划、场景理解等全维度任务,结果实现全方面突破: ✅ NAVSIM闭环轨迹规划:PDMS指标达88.76,相较基础方法提升2.72,优于传统端到端和VLA方法; ✅ NuInstruct跨视图风险感知:关键MAP指标提升31.34,超当前SOTA方法7.37,MAE误差显著降低,状态预测准确性大幅提升; ✅ DriveLM多任务能力:Match指标提升15.23、平均指标提升6.67,全面超越现有SOTA,跨视图目标感知、动作预测能力大幅增强; ✅ OmniDrive场景描述:在融入3D能力的同时,完全保留基础VLM在场景理解等任务的优势,BLEU、CIDEr等指标提升; ✅ nuScenes开环轨迹规划:平均碰撞率降低8%,轨迹规划的安全性和准确性得到优化。



技术价值:开辟自动驾驶VLMs落地新路径
VGGDrive的提出,为自动驾驶领域的视觉语言模型应用开辟了全新的技术范式:打破了此前“靠问答数据集教空间知识”“靠额外解码器做轨迹预测”的局限,证明了将成熟3D基础模型与VLMs深度融合,是补齐VLMs空间感知短板的高效路径。这一思路不仅让VLMs在自动驾驶的核心任务中实现性能突破,还保留了其原有场景理解、自然语言交互的优势,为后续端到端、可解释的自动驾驶大模型研提高了新的研究思路。同时,VGGDrive的CVGE模块采用即插即用设计,可灵活适配不同的基础VLM和3D模型,具备极强的通用性和工程落地潜力,为自动驾驶大模型的技术迭代提供了新方案。

发表回复