2025-11-15 亚洲顶级四高校联手打造OmniVGGT：全能多模态视觉几何Transformer！

原文链接：https://mp.weixin.qq.com/s/9ARwFcWN2BXA4Dvt9dDw4g

一、为啥需要“全能多模态”3D模型？

现在主流3D基础模型（比如VGGT）能统一处理多种3D任务，但有个大问题：只认RGB图像，不用深度、相机参数这些“送分题”信息。

实际应用中，辅助信息随处可见：VR/AR有RGB-D数据、自动驾驶有激光雷达点云、机器人有相机参数，但现有方法要么只能用一种辅助信息，要么最多处理两种（比如RGB+深度），没法灵活适配不同场景。

我们提出OmniVGGT，一个能在训练和推理时灵活利用任意数量辅助几何模态的框架。

文章标题：OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer

项目链接：https://livioni.github.io/OmniVGGT-offcial/

核心创新有两个：

GeoAdapter（几何适配器）：用零初始化卷积将深度、相机参数等几何信息逐步注入基础模型，不破坏原有特征空间，计算开销极小，推理速度和原模型VGGT差不多；
随机多模态融合策略：训练时随机采样模态子集，让模型在测试时能接受任意数量的模态输入，学到更鲁棒的空间表示，不会过度依赖辅助信息。

实验表明，OmniVGGT在单目/多视图深度估计、多视图立体匹配、相机位姿估计等任务上都达到顶尖水平，甚至只用RGB输入也比现有方法好。更实用的是，把它集成到视觉-语言-动作（VLA）模型中，还能显著提升机器人操作任务的性能。

图1：OmniVGGT核心效果

这张图展示了框架的灵活性：输入任意数量的辅助几何模态（深度、相机内参/外参），都能输出高质量3D几何结果；集成到VLA模型后，机器人操作任务的表现也大幅提升。

OmniVGGT就是要解决“信息浪费”和“适配性差”的问题——不管有多少种、多少比例的辅助信息，都能充分利用，还不影响纯RGB输入时的性能。

图2：OmniVGGT整体流程

这张图清晰展示了工作逻辑：输入图像集+任意数量的相机参数（位姿/内参）或深度图，缺失的辅助信息用占位符令牌替代；经过L层交替注意力网络处理后，通过三个预测头输出深度图、相机位姿和3D点云图，全程端到端完成。

二、核心技术：GeoAdapter+随机融合，灵活又高效

1. 基础：VGGT的核心逻辑

2. GeoAdapter：优雅注入多模态信息

GeoAdapter分相机适配器和深度适配器，专门解决“不同模态怎么融合”的问题，轻量又稳定。

（1）相机适配器：处理全局相机参数

（2）深度适配器：处理稠密深度图

3. 随机多模态融合：支持任意输入组合

4. 损失函数：多任务联合优化

三、实验效果：全能选手，样样顶尖！

我们用19个公开数据集训练（覆盖室内/室外、真实/合成、静态/动态场景），在多个3D任务上做了全面测试，结果超惊艳。

核心图表解读

表1：辅助信息比例的影响（Sintel数据集）

这张表验证了灵活性：辅助信息越多，性能越好，而且不同类型辅助信息能互补：

只加30%深度信息：深度估计的绝对相对误差（Abs Rel）就降低0.408，效果显著；
加100%相机+100%深度信息：相机位姿的AUC@30°达85.99%，比无辅助信息提升15.16%；
纯RGB输入时，OmniVGGT也比VGGT基线好，证明GeoAdapter没有副作用。

图3：不同辅助信息的视觉效果

这张图很直观：

加相机信息：能修正几乎无重叠的复杂场景的位姿；
加深度信息：门等局部几何更精准；
两者都加：相对距离和视角都能正确校正，重建效果最棒。

表2：单视图深度估计（Sintel、Bonn、NYU-v2数据集）

表3：多视图深度估计（ScanNet、ETH3D等数据集）

表4：相机位姿估计（RealEstate10K、CO3Dv2数据集）

速度和精度双领先：

纯RGB输入：RealEstate10K的AUC@30°达85.9%，比VGGT高0.6个百分点；
加相机参数：CO3Dv2的AUC@30°达93.4%，远超Pow3R的82.2%；
速度：OmniVGGT仅需0.2秒，比Pow3R快30倍以上。

表5：3D重建（7-Scenes数据集）

稀疏视图场景表现惊人：

纯RGB输入：精度（Acc）0.104，和VGGT相当；
加100%相机参数：Acc降至0.037，比纯RGB提升64.4%；
加相机+深度信息：Acc仅0.036，完整性（Comp）0.036，正常一致性（NC）0.912，全面领先所有基线。

图4：7-Scenes等数据集的视觉对比

这张图展示了极端场景的表现：即使图像几乎无重叠，OmniVGGT加辅助信息后也能保持准确的空间关系和几何一致性，重建效果比其他方法更逼真。

表6：机器人操作任务（CALVIN数据集）

集成到VLA模型后效果显著：

加深度信息：ABCD→D任务的平均连续完成数（Avg.Len.）达4.08，比基于点云的基线高0.04；
纯RGB输入：零样本场景的Avg.Len.达3.92，比Kosmos-VLA基线高0.43，证明学到的空间表示更鲁棒。

表7：GeoAdapter架构消融实验

验证了核心设计的有效性：

直接替换相机令牌（Replace）：性能最差，破坏了原有特征；
单层适配器（One-Layer Adapter）：无法充分利用辅助信息，效果不如OmniVGGT；
深度加零卷积（Depth ZeroConv）：把深度信息当噪声，性能下降；
完整OmniVGGT：各项指标最优，证明零卷积注入相机信息、直接注入深度信息的设计最合理。

四、总结：3D基础模型的“全能辅助”

OmniVGGT的核心价值在于“灵活”和“兼容”：

输入灵活：任意数量、任意组合的辅助几何模态都能利用；
性能强大：纯RGB输入比现有方法好，加辅助信息后更是全面顶尖；
实用高效：计算开销小，推理速度快，还能无缝集成到VLA模型，提升机器人任务性能。

未来可以扩展到更复杂的动态场景，进一步挖掘多模态融合的潜力，让3D基础模型更适应真实世界的多样输入。

2025-11-15 亚洲顶级四高校联手打造OmniVGGT：全能多模态视觉几何Transformer！

发表回复取消回复

Categories

Archives

2025-11-15 亚洲顶级四高校联手打造OmniVGGT：全能多模态视觉几何Transformer！

发表回复 取消回复

Categories

Archives

发表回复取消回复