2025-11-03 语义三维重建新SOTA!开源IGGT:探索语义和几何关联的实例Transformer

原文链接:https://mp.weixin.qq.com/s/ImDI-2xSBKG9–wiorF9LA

0. 论文信息

标题:IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

作者:Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu

机构:NWPU、S-Lab, NTU、StepFun, Inc、THU、、MMLab, CUHK

原文链接:https://arxiv.org/abs/2510.22706

代码链接:https://github.com/lifuguan/IGGT_official

1. 导读

人类天生能够将三维世界的几何结构与语义内容视为相互关联的要素,从而实现对复杂场景的连贯且准确的理解。然而,以往的大多数方法都侧重于训练用于低层次三维重建的大型几何模型,而将高层次的空间理解视为独立的过程,忽视了这两者在三维场景分析中的关键相互作用。这种做法限制了模型的泛化能力,导致其在后续的三维理解任务中表现不佳。最近的一些研究试图通过将三维模型与特定的语言模型相结合来缓解这一问题,但这种做法实际上只是将感知能力限制在所匹配模型的能力范围内,从而削弱了模型对下游任务的适应能力。在本文中,我们提出了InstanceGrounded Geometry Transformer(IGGT),这是一种端到端的大型统一Transformer模型,旨在同时整合空间重建与实例级上下文理解所需的知识。具体而言,我们设计了一种“三维一致性对比学习”策略,引导IGGT仅通过二维视觉输入就能生成包含几何结构与基于实例的聚类的统一表示。这种表示方式使得二维视觉输入能够被有效地转化为一个包含明确区分的物体实例的连贯三维场景。为了支持这一任务,我们还构建了InsScene-15K这一大规模数据集,该数据集包含了高质量的RGB图像、物体姿态、深度图以及与三维模型一致的三维实例级掩码标注,并采用了创新的数据整理流程。

2. 效果展示

基于我们精心挑选的大规模数据集InsScene-15K,我们提出了一种新颖的端到端框架,该框架能够在一个统一的表示中实现几何重建和上下文理解。这一范式促进了各种应用,包括空间跟踪、2D/3D开放词汇分割和场景定位。

来自三个不同来源的掩码注释的可视化。对于RGBD扫描场景,我们还额外比较了来自ScanNet++的原始真实世界掩码与我们精化后的注释,以及它们对应的匹配ID和mloU分数。

3. 引言

在追求空间智能的过程中,一个基础性目标便是构建能够反映人类理解的表征——从RGB图像等视觉感官输入中同时捕捉场景的精确几何结构与丰富语义内容。此类表征对于实现机器人操作、增强现实/虚拟现实(AR/VR)以及规划等下游任务至关重要。

先前的方法通过一种碎片化的范式来应对这一挑战,即将三维几何重建与高级语义理解拆分为独立的任务。通常,它们首先利用以几何为中心的技术(例如,多视图立体(Multi-View Stereo,MVS)方法或现成的大型图像转三维模型)来预测低层次的三维结构,随后利用视觉语言模型(Vision-Language Models,VLMs)或二维分割模型执行高级语义分割任务。然而,这些脱节的方法存在固有缺陷,因为它们会在各阶段之间传播误差,且无法利用形状与身份之间的相互上下文信息,从而阻碍了彼此能力的提升,并限制了其对模型重建的支持能力。

近期出现的方法尝试通过将空间模型与特定的视觉语言模型(VLM)对齐来弥合这一差距。然而,这些方法存在三个关键局限。首先,由于三维几何包含低层次、细粒度的结构信号,强制与高级文本概念严格对齐会使表征过度平滑,导致高频几何细节退化并破坏多视图一致性。其次,这种与特定视觉语言模型架构的紧密耦合,本质上将性能限制在基础模型(例如,LSeg)上,并阻碍了集成更新、更强大的基础模型(例如,CLIP、SigLIP)。第三,由于这些视觉语言模型主要在二维图像-文本对上进行训练,其对齐的特征往往无法区分同一语义类别内的对象,这显著限制了更多下游应用(例如,在大视角变化下的三维实例一致性跟踪,以及与视觉语言模型接口时的空间问答)。

4. 主要贡献

我们提出了实例基础几何变换器(Instance-Grounded Geometry Transformer,IGGT),这是一种新颖的端到端框架,统一了空间重建与上下文理解的表征。我们的核心思想并非简单地将几何与语言特征对齐,而是通过联合训练将两者耦合,并鼓励模型自主学习三维实例级语义与其几何结构之间的关系,从而在上下文理解与几何重建方面实现相互提升。具体而言,1)我们采用大型统一变换器(Unified Transformer)将多视图图像编码为三维场景的统一标记表征,再由几何头(Geometry Head)和实例头(Instance Head)分别解码为几何点图和实例聚类场。2)我们采用具有窗口移动注意力机制的跨模态融合模块,使实例头能够利用像素级的细粒度几何特征增强其空间感知能力。3)为进一步提升实例场的多视图一致性,我们设计了一种三维一致性对比学习策略,引导IGGT学习几何结构与实例基础聚类特征。由于社区中实例级几何-语义对齐标注仍然稀缺,我们通过提出一个名为InsScene-15K的大规模数据集来促进这一任务,该数据集精心构建,包含高质量的RGB图像、位姿、深度图以及三维一致性实例掩码。推荐课程:基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

此外,在训练完整模型(即IGGT)后,我们设计了一种实例基础场景理解策略,其中实例掩码作为连接IGGT与各类视觉语言模型的桥梁。这种范式不仅实现了各类视觉语言模型(如CLIP和SigLIP)的无缝即插即用集成,从而提升下游任务性能,还扩展至大型多模态模型(Large Multimodal Models,LMMs),解锁了更复杂的场景理解以及更广泛的应用,如场景定位。

我们通过在多样下游任务(例如,空间跟踪分割、开放词汇分割和场景定位)上的广泛实验验证了所提框架的优越性,证明了其在任务性能和三维场景一致性方面均优于最先进方法。

5. 方法

我们的方法主要包含两个阶段。首先,我们提出IGGT,这是一种统一的基础模型,能够在大规模数据集上通过三维一致性对比学习同时预测空间层面的实例区分特征并执行三维重建。其次,我们提出了一种实例基础场景理解策略。该策略采用无监督聚类方法,通过将预测特征分组为具有一致实例ID的掩码,将场景划分为实例。然后,这些掩码被用于引导最先进的视觉语言模型(例如,CLIP、OpenSeg)和大型多模态模型(例如,GPT-4o、Qwen2.5-VL)执行开放词汇场景查询和定位任务。

6. 实验结果

为全面评估所提方法与竞争方法在跟踪质量上的表现,特别是在多对象大视角变化情况下的表现,我们手动为多个场景中的部分对象标注了精确的真实标签(更多可视化结果见附录)。对于基线方法,我们修改了SAM2以支持多视图输入下的密集分割与跟踪,记为SAM2*。此外,我们将SAM集成到SpaTrackerV2中,利用跟踪点作为提示执行密集分割。表1和表2展示了定量结果,证明了所提方法的显著优越性。通过利用隐式三维推理,我们的方法成功区分了对象身份,实现了近100%的T-SR准确率。相比之下,基线方法在这一关键任务上失败,T-mIoU低于30%,而我们的方法超过60%。这一性能差距在图5中得到了直观展示,其中我们的方法在大相机运动下成功跟踪并分割了椅子,而竞争方法则丢失了跟踪目标。

7. 总结 & 未来工作

在本文中,我们介绍了IGGT,这是一种新颖的端到端框架,统一了三维场景中空间重建与上下文理解的表征。我们成功的关键在于通过联合训练耦合几何与实例级语义特征,并释放统一大型变换器的潜力,以实现上下文理解与几何重建的相互提升。为促进这一任务,我们进一步提出了一个名为InsScene-15K的大规模数据集,包含高质量的RGB图像、位姿、深度图以及三维一致性实例掩码。此外,所提实例基础场景理解策略使IGGT能够即插即用地集成各类视觉语言模型和大型多模态模型,解锁了更广泛的应用。广泛实验证明,IGGT在任务性能和三维一致性方面均优于最新最先进方法。我们相信,IGGT为联合构建和理解复杂三维世界提供了一个有前景的研究方向,并将激发未来更多相关研究。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论