2026-01-19 视频分割新SOTA!3AM融合3D感知,大视角场景上IoU大涨15.9点,完胜SAM2

原文连接:https://zhuanlan.zhihu.com/p/1996517812504650805

如果你和我一样,一直在关注视频对象分割(VOS)领域,那你一定对 SAM(Segment Anything Model)家族的威力不陌生,尤其是它的视频版本SAM2。这类模型在连续帧中追踪物体的能力很强,但它们有一个共同的“软肋”:一旦摄像机视角变化太大,或者物体消失后再次出现,它们就很容易“脸盲”,跟丢目标。

这背后的原因是,它们主要依赖2D的外观特征来识别物体。想象一下,你从正面看一个杯子和从顶上看一个杯子,它的样子完全不同,单纯靠“长相”来认,确实难免会出错。

而3AM这篇工作,正是为了解决这个痛点而来。它巧妙地为以SAM2为代表的2D分割模型注入了“3D几何感知”的能力,让模型不仅认识“皮相”,更能理解“骨相”。最关键的是,它在实现这种强大能力的同时,推理时依然只需要普通的RGB视频,无需相机位姿、深度图等额外信息,真正做到了既强大又实用。

3AM可理解为“具备3D感知能力的 SAM 模型”(3D-aware SAM)。

背景与动机:2D与3D的“两难困境”

在VOS领域,一直存在着两条平行的技术路线,但都未能完美解决大视角下的目标跟踪问题。

  • 2D VOS方法 (如SAM2) :这类方法基于记忆网络架构,通过时空注意力机制来关联不同帧中的物体。它们速度快、效率高,但在处理外观变化剧烈的场景时,由于缺乏几何层面的理解,常常会发生错误。如下图(a)所示,当视角从沙发正面切换到侧面时,SAM2的分割结果就出现了明显的漂移和丢失。
  • 3D实例分割方法:这类方法直接在3D空间(如点云)中进行操作,天然具有几何一致性。但它们的代价是需要精确的相机位姿、深度图,并且需要进行昂贵的预处理(如三维重建),计算成本高昂,且难以应用于在线或流式场景。如下图(b)所示,如果3D重建本身不完整或有噪声,分割错误反而会被放大。

正是看到了这种“两难困境”,研究者们提出了3AM,旨在融合两者的优点:既要SAM2的效率和灵活性,也要3D方法的几何鲁棒性,但又不要它对额外输入的依赖。 如上图(c)所示,3AM在同样的大视角变化下,能够持续稳定地跟踪目标,展现了强大的跨视角对应能力。

方法详解:3AM如何炼成?

3AM的核心思想是在训练阶段,将一个强大的3D重建模型(MUSt3R)所提取的几何感知特征,与SAM2的2D外观特征进行深度融合。下面我们来看看它的两大“法宝”:特征融合器 (Feature Merger)视场感知采样 (Field-of-View Aware Sampling)

上图就是3AM的整体流程。可以看到,它的主体依然是SAM2的架构,但其关键的特征处理环节被一个新设计的“Feature Merger”模块所增强。

  • Input: 一段RGB视频和一个初始提示(如第一帧的掩码、点或框)。
  • Process:
  1. 视频的每一帧都会并行送入两个分支:SAM2的图像编码器提取2D外观特征,一个冻结的MUSt3R模型提取蕴含3D几何信息的特征。
  2. 这两个特征被送入Feature Merger模块,生成一个兼具2D纹理和3D结构的融合特征。
  3. 这个融合特征将替代SAM2原有的特征,参与后续的记忆读写和掩码解码过程。
  • Output: 在整个视频中对目标物体的持续、一致的分割掩码。

法宝一:Feature Merger (特征融合器)

为什么需要融合?看下图就明白了。研究者做了一个实验,在一个点上查询它在另一视角下的对应位置。

如图下半部分所示,SAM2的特征(基于外观)在视角变化后,完全找不到正确的对应区域,其相似度热图变得非常混乱。而MUSt3R的特征(基于几何)则不同,它的不同层级包含了从语义对应到点云空间的过渡信息。浅层特征语义信息更强,深层特征几何结构更明确。

3AM的Feature Merger正是要博采众长。它通过交叉注意力和卷积操作,将MUSt3R多个层级的特征与SAM2的特征进行有机结合,最终得到的融合特征F_merged,既保留了物体的视觉语义,又理解了它在3D空间中的位置,因此能够实现更可靠的定位。

法宝二:Field-of-View–Aware Sampling (视场感知采样)

这是3AM在训练阶段使用的一个“聪明”策略。为了让模型学会3D对应关系,我们需要给它看来自不同视角的同一物体。但怎么“看”是个学问。

  • **连续采样 (a):**这种策略通过采集时间上连续的视频帧来提供密集的样本,但其致命缺点是视点多样性(Viewpoint Diversity)有限。模型在短时间内看到的图像高度雷同,难以学习到物体在不同视角下的泛化特征。
  • 朴素随机采样 (b):为了增加视角变化,我们可能会在视频中随机抽帧,但这会导致模型观察到空间不相交(Spatially Disjoint) 的区域。例如:第 0 帧拍的是沙发的左侧,第 1 帧拍的是沙发的右侧。由于这两个区域在 3D 空间中相距甚远,强行让模型将它们视为同一组监督信号进行对齐,会迫使模型去匹配不一致的几何结构,从而导致学习信号的混乱(Ambiguous Learning)。
  • 视场感知采样 (c):这是本文提出的优化策略。它在选择训练帧时,会利用位姿信息进行过滤,仅保留那些其 3D 点落在参考帧相机平截头体(Frustum) 内且重叠度超过阈值的帧。这种方法在确保几何一致性(即模型确实在观察同一个局部区域)的同时,保留了自然的姿态变化和遮挡变化,大幅提升了 3D 学习的质量。

通过这种方式,3AM确保了模型在学习跨视角一致性时,接触到的都是几何上一致、可靠的训练样本,从而大大提升了学习效率和效果。

实验与结果:性能大幅超越SOTA

理论说得好,不如数据来得实在。3AM在多个极具挑战性的数据集上都取得了惊人的效果,这些数据集都以包含剧烈的相机运动和物体“消失-重现”为特点。

ScanNet++ 数据集

研究者们在ScanNet++数据集上构建了一个专门用于评估物体再出现(reappearance)场景的子集(Selected Subset)。在这个子集上,3AM的性能可谓一骑绝尘。

从上表可以看到,在最具挑战性的 Selected Subset 上:

  • 3AM的 IoU 达到了 90.6%,而之前的SOTA方法DAM4SAM只有76.5%。
  • 更关键的 Positive IoU (只在物体可见的帧上计算IoU,更能反映跟踪质量),3AM达到了 71.7%,相比DAM4SAM的43.6%和SAM2Long的41.3%,分别实现了 +28.1+30.4 个点的巨大性能飞跃!

下面的可视化结果更直观地展示了3AM的强大。无论是椅子、屏幕还是桌子,在经历大幅度的视角偏转甚至完全移出画面再移回后,3AM都能精准地再次识别并分割出来,而其他方法则早已“跟丢”了。

Replica 数据集

在同样以3D场景和自由视角为特点的Replica数据集上,3AM同样表现出色。

它的IoU达到了 81.19% ,Positive IoU达到了 63.81% ,全面超越了包括SAM2Long和DAM4SAM在内的所有对比方法。

一点思考

3AM的成功,为我们揭示了一个非常重要的方向:将隐式的3D几何先验知识“蒸馏”到高效的2D模型中,是提升模型在复杂三维世界中感知鲁棒性的关键钥匙。

它没有粗暴地将3D重建作为后处理,也没有强行改变成熟的2D模型架构,而是通过一个即插即用的特征融合模块,在训练阶段让模型“学会”理解3D空间,在推理阶段则“忘记”对3D输入的依赖。这种“训练时复杂,推理时简单”的哲学,对于推动前沿算法的实际落地,具有非常重要的借鉴意义。

未来,我们或许可以看到更多类似的工作,将不同模态的知识(如物理、因果、几何等)以更优雅、更高效的方式融入到基础模型中,让AI真正地“理解”我们所处的三维世界。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论