原文链接:https://mp.weixin.qq.com/s/9ARwFcWN2BXA4Dvt9dDw4g
一、为啥需要“全能多模态”3D模型?
现在主流3D基础模型(比如VGGT)能统一处理多种3D任务,但有个大问题:只认RGB图像,不用深度、相机参数这些“送分题”信息。
实际应用中,辅助信息随处可见:VR/AR有RGB-D数据、自动驾驶有激光雷达点云、机器人有相机参数,但现有方法要么只能用一种辅助信息,要么最多处理两种(比如RGB+深度),没法灵活适配不同场景。
我们提出OmniVGGT,一个能在训练和推理时灵活利用任意数量辅助几何模态的框架。
文章标题:OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer
项目链接:https://livioni.github.io/OmniVGGT-offcial/
核心创新有两个:
- GeoAdapter(几何适配器):用零初始化卷积将深度、相机参数等几何信息逐步注入基础模型,不破坏原有特征空间,计算开销极小,推理速度和原模型VGGT差不多;
- 随机多模态融合策略:训练时随机采样模态子集,让模型在测试时能接受任意数量的模态输入,学到更鲁棒的空间表示,不会过度依赖辅助信息。
实验表明,OmniVGGT在单目/多视图深度估计、多视图立体匹配、相机位姿估计等任务上都达到顶尖水平,甚至只用RGB输入也比现有方法好。更实用的是,把它集成到视觉-语言-动作(VLA)模型中,还能显著提升机器人操作任务的性能。

图1:OmniVGGT核心效果
这张图展示了框架的灵活性:输入任意数量的辅助几何模态(深度、相机内参/外参),都能输出高质量3D几何结果;集成到VLA模型后,机器人操作任务的表现也大幅提升。
OmniVGGT就是要解决“信息浪费”和“适配性差”的问题——不管有多少种、多少比例的辅助信息,都能充分利用,还不影响纯RGB输入时的性能。

图2:OmniVGGT整体流程
这张图清晰展示了工作逻辑:输入图像集+任意数量的相机参数(位姿/内参)或深度图,缺失的辅助信息用占位符令牌替代;经过L层交替注意力网络处理后,通过三个预测头输出深度图、相机位姿和3D点云图,全程端到端完成。
二、核心技术:GeoAdapter+随机融合,灵活又高效
1. 基础:VGGT的核心逻辑

2. GeoAdapter:优雅注入多模态信息
GeoAdapter分相机适配器和深度适配器,专门解决“不同模态怎么融合”的问题,轻量又稳定。
(1)相机适配器:处理全局相机参数

(2)深度适配器:处理稠密深度图

3. 随机多模态融合:支持任意输入组合

4. 损失函数:多任务联合优化

三、实验效果:全能选手,样样顶尖!
我们用19个公开数据集训练(覆盖室内/室外、真实/合成、静态/动态场景),在多个3D任务上做了全面测试,结果超惊艳。
核心图表解读

表1:辅助信息比例的影响(Sintel数据集)
这张表验证了灵活性:辅助信息越多,性能越好,而且不同类型辅助信息能互补:
- 只加30%深度信息:深度估计的绝对相对误差(Abs Rel)就降低0.408,效果显著;
- 加100%相机+100%深度信息:相机位姿的AUC@30°达85.99%,比无辅助信息提升15.16%;
- 纯RGB输入时,OmniVGGT也比VGGT基线好,证明GeoAdapter没有副作用。

图3:不同辅助信息的视觉效果
这张图很直观:
- 加相机信息:能修正几乎无重叠的复杂场景的位姿;
- 加深度信息:门等局部几何更精准;
- 两者都加:相对距离和视角都能正确校正,重建效果最棒。

表2:单视图深度估计(Sintel、Bonn、NYU-v2数据集)


表3:多视图深度估计(ScanNet、ETH3D等数据集)


表4:相机位姿估计(RealEstate10K、CO3Dv2数据集)
速度和精度双领先:
- 纯RGB输入:RealEstate10K的AUC@30°达85.9%,比VGGT高0.6个百分点;
- 加相机参数:CO3Dv2的AUC@30°达93.4%,远超Pow3R的82.2%;
- 速度:OmniVGGT仅需0.2秒,比Pow3R快30倍以上。

表5:3D重建(7-Scenes数据集)
稀疏视图场景表现惊人:
- 纯RGB输入:精度(Acc)0.104,和VGGT相当;
- 加100%相机参数:Acc降至0.037,比纯RGB提升64.4%;
- 加相机+深度信息:Acc仅0.036,完整性(Comp)0.036,正常一致性(NC)0.912,全面领先所有基线。

图4:7-Scenes等数据集的视觉对比
这张图展示了极端场景的表现:即使图像几乎无重叠,OmniVGGT加辅助信息后也能保持准确的空间关系和几何一致性,重建效果比其他方法更逼真。

表6:机器人操作任务(CALVIN数据集)
集成到VLA模型后效果显著:
- 加深度信息:ABCD→D任务的平均连续完成数(Avg.Len.)达4.08,比基于点云的基线高0.04;
- 纯RGB输入:零样本场景的Avg.Len.达3.92,比Kosmos-VLA基线高0.43,证明学到的空间表示更鲁棒。

表7:GeoAdapter架构消融实验
验证了核心设计的有效性:
- 直接替换相机令牌(Replace):性能最差,破坏了原有特征;
- 单层适配器(One-Layer Adapter):无法充分利用辅助信息,效果不如OmniVGGT;
- 深度加零卷积(Depth ZeroConv):把深度信息当噪声,性能下降;
- 完整OmniVGGT:各项指标最优,证明零卷积注入相机信息、直接注入深度信息的设计最合理。
四、总结:3D基础模型的“全能辅助”
OmniVGGT的核心价值在于“灵活”和“兼容”:
- 输入灵活:任意数量、任意组合的辅助几何模态都能利用;
- 性能强大:纯RGB输入比现有方法好,加辅助信息后更是全面顶尖;
- 实用高效:计算开销小,推理速度快,还能无缝集成到VLA模型,提升机器人任务性能。
未来可以扩展到更复杂的动态场景,进一步挖掘多模态融合的潜力,让3D基础模型更适应真实世界的多样输入。

发表回复