2026-02-28 天大 × 小米新作！VGGDrive：让自动驾驶大模型拥有3D几何感知能力

原文链接：https://mp.weixin.qq.com/s/WKq5Z4OSwZn-MCcuzCEtbQ

传统VLM在自动驾驶中“看得懂语言，却看不透几何”。即便通过构造Q&A数据进行辅助训练，也只能做表层补强，难以真正弥补跨视角3D空间理解的核心短板。天津大学智能与计算学部联合小米汽车团队提出VGGDrive，不再停留在数据层面的修补，而是首次从能力结构层面完成升级——开创性地引入成熟3D基础模型为VLM构建“几何底座”，提出了一种以3D模型赋能VLA的新技术范式，为自动驾驶体系提供了可扩展、可持续进化的能力增强路径。其核心创新在于设计了一个即插即用的跨视角3D几何赋能器（CVGE）。通过分层自适应注入机制，在不破坏原有VLM架构的前提下，实现冻结3D基础模型与VLM的深度耦合，将3D几何特征高效注入模型内部，真正打造具备跨视角3D几何建模能力的自驾VLA模型。更重要的是，VGGDrive并非局限于单任务优化，而是在五个主流自动驾驶基准上实现全面提升，覆盖跨视角风险感知、场景理解、运动与状态预测以及轨迹规划，真正实现从感知到决策的全链路能力增强。相关研究成果已发布，项目开源地址也同步公开～

论文链接：https://arxiv.org/pdf/2602.20794

开源地址：https://github.com/WJ-CV/VGGDrive

VLMs在自动驾驶中的先天短板

视觉语言模型虽能完成高层场景理解和决策辅助，甚至向端到端的视觉-语言-动作（VLA）模型演进，但在自动驾驶的复杂开放环境中，安全导航高度依赖精准的空间感知能力。此前的改进方案要么通过构建大规模问答数据集教VLMs空间概念，却无法赋予其扎实的几何先验；要么在VLMs上新增独立动作解码器专攻轨迹预测，却割裂了场景理解与决策制定，均未能从根本上解决问题。同时，现有3D基础模型与VLMs的融合方案，多针对室内静态单相机场景设计，简单的特征拼接/相加策略，也无法满足自动驾驶户外动态多相机场景的高精度、高鲁棒性要求。

VGGDrive架构的三大关键设计

VGGDrive的核心思路，是将成熟3D基础模型（VGGT）的跨视图几何定位能力深度注入基础VLM，通过即插即用、解耦设计，让VLMs拥有真正的3D几何感知能力，且不破坏原有模型架构。其核心由三大组件构成：

基础VLM骨干：选用Qwen2.5-VL-7B作为基础，处理多视图图像和文本指令，完成视觉、文本特征的提取与初步推理；
跨视图3D几何使能器（CVGE）：作为核心创新模块，建立可学习的跨模态交互机制，让2D视觉特征能自主从3D几何特征中挖掘关键空间信息，实现从“被动接收”到“主动探索”的转变；
分层自适应注入机制：解耦基础LLM的解码器层，将CVGE增强后的3D特征，分层次、结构化地注入到各层的2D视觉嵌入中，在模型内部建立稳固的几何锚定，让3D几何知识深度指导驾驶任务推理。

简单来说，VGGDrive通过冻结的VGGT模型提取多视图图像的3D几何特征，再经CVGE完成3D与2D特征的深度融合，最后通过分层注入机制让3D能力渗透到VLM的每一层推理中，从底层补齐了VLMs的空间感知短板。

五大基准全面领先，提升核心任务性能

为验证VGGDrive的有效性，团队在NAVSIM、NuInstruct、DriveLM、OmniDrive、nuScenes五大主流自动驾驶基准上开展了全面实验，覆盖跨视图风险感知、运动预测、轨迹规划、场景理解等全维度任务，结果实现全方面突破： ✅ NAVSIM闭环轨迹规划：PDMS指标达88.76，相较基础方法提升2.72，优于传统端到端和VLA方法； ✅ NuInstruct跨视图风险感知：关键MAP指标提升31.34，超当前SOTA方法7.37，MAE误差显著降低，状态预测准确性大幅提升； ✅ DriveLM多任务能力：Match指标提升15.23、平均指标提升6.67，全面超越现有SOTA，跨视图目标感知、动作预测能力大幅增强； ✅ OmniDrive场景描述：在融入3D能力的同时，完全保留基础VLM在场景理解等任务的优势，BLEU、CIDEr等指标提升； ✅ nuScenes开环轨迹规划：平均碰撞率降低8%，轨迹规划的安全性和准确性得到优化。

技术价值：开辟自动驾驶VLMs落地新路径

VGGDrive的提出，为自动驾驶领域的视觉语言模型应用开辟了全新的技术范式：打破了此前“靠问答数据集教空间知识”“靠额外解码器做轨迹预测”的局限，证明了将成熟3D基础模型与VLMs深度融合，是补齐VLMs空间感知短板的高效路径。这一思路不仅让VLMs在自动驾驶的核心任务中实现性能突破，还保留了其原有场景理解、自然语言交互的优势，为后续端到端、可解释的自动驾驶大模型研提高了新的研究思路。同时，VGGDrive的CVGE模块采用即插即用设计，可灵活适配不同的基础VLM和3D模型，具备极强的通用性和工程落地潜力，为自动驾驶大模型的技术迭代提供了新方案。

2026-02-28 天大 × 小米新作！VGGDrive：让自动驾驶大模型拥有3D几何感知能力

发表回复取消回复

Categories

Archives

2026-02-28 天大 × 小米新作！VGGDrive：让自动驾驶大模型拥有3D几何感知能力

发表回复 取消回复

Categories

Archives

发表回复取消回复