原文链接:https://mp.weixin.qq.com/s/z0qUVeU2YIo6vXbhhNjY3A
一、3D实例分割的痛点:标注成本太高
3D实例分割需要同时预测场景中点云的语义类别和实例掩码,是自动驾驶、机器人、AR/VR等领域的基础任务。
但全监督方法需要逐点标注语义和实例信息,成本极高;弱监督3D实例分割是3D场景理解的关键任务,尤其随着数据规模扩大和全监督方法标注成本飙升,其重要性日益凸显。现有弱监督方法虽降低了标注要求,但仍有缺陷:
- 一键标注(OTOC):需为每个实例标注至少一个点,标注者需精准定位,仍耗时;
- 边界框标注:需为每个实例绘制3D边界框,重叠实例难标注,需专业训练。
- 标注耗时、复杂度高、依赖专业标注人员等问题。
为此,我们提出DBGroup——一个两阶段弱监督3D实例分割框架,仅需场景级标注(即只需标注场景中包含的物体类别),更高效且易扩展。
文章标题:DBGroup: Dual-Branch Point Grouping for Weakly Supervised 3D Instance Segmentation

图1:标注格式对比
这张图清晰展示了不同标注方式的差异:(a)全监督的逐点标注(耗时耗力);(b)弱监督的一键/边界框标注(仍需区分实例);(c)我们的场景级标注(仅需列出场景中的物体类别),标注成本大幅降低。
第一阶段通过双分支点分组模块,结合多视图图像提取的语义和掩码线索生成伪标签,并通过粒度感知实例合并、语义选择与传播两种策略优化标签质量;第二阶段利用优化后的伪标签,通过多轮自训练训练端到端实例分割网络,同时引入实例掩码过滤策略解决伪标签不一致问题。
场景级标注的优势在于:平均每个场景标注时间不到1分钟(远低于一键标注的2分钟+、边界框标注的4分钟+),且无需专业标注者,只需列出场景中的物体类别(比如“房间里有桌子、椅子、床”)。
但场景级标注缺乏实例级信息,如何引导模型分割出单个实例,是核心挑战——DBGroup就是要解决“用粗标注搞精准分割”的问题。

图2:DBGroup整体流程
这张图展示了两阶段框架:第一阶段是伪标签生成与优化,通过双分支点分组和两种优化策略得到高质量伪标签;第二阶段是多轮自训练,用伪标签训练3D实例分割网络,最终输出实例分割结果。
二、核心技术:双分支+伪标签优化,从粗标注到精分割
DBGroup的核心是“用多视图图像的语义和掩码线索,弥补场景级标注的信息缺失”,具体分为伪标签生成与优化、自训练两个阶段。
1. 第一阶段:伪标签生成与优化
通过双分支点分组(语义引导分支+掩码引导分支)生成不同粒度的实例掩码,再通过两种策略优化,得到高质量伪标签。
(1)语义引导分支(SGB):生成粗粒度实例掩码

(2)掩码引导分支(MGB):生成细粒度实例掩码


图3:伪标签生成与优化 workflow
这张图详细拆解了第一阶段:SGB从多视图图像提取特征,投影到3D点云后聚类生成粗掩码;MGB用超点提示SAM生成掩码,再投影回3D点云生成细掩码;GAIM合并/拆分掩码优化实例伪标签,SSP过滤语义得分优化语义伪标签。
(3)伪标签优化策略
粒度感知实例合并(GAIM):整合粗/细掩码的优势

语义选择与传播(SSP):优化语义伪标签

2. 第二阶段:多轮自训练+实例掩码过滤

(1)网络架构
- 特征提取:用MinkowskiNet34C作为骨干网络,提取点云特征;
- 双分支预测:语义分支预测语义得分,偏移分支预测每个点到实例中心的偏移;
- 聚类与评分:根据偏移和语义,用BFS聚类生成实例候选,再通过ScoreNet评分,最后用非极大值抑制(NMS)筛选最终实例。
(2)实例掩码过滤(IMF)


图4:3D实例分割网络框架
这张图展示了第二阶段的网络流程:3D U-Net提取特征,语义分支和偏移分支分别预测语义标签和偏移;聚类后得到实例候选,经实例掩码过滤和评分网络筛选,输出最终实例分割结果。
三、实验效果:场景级标注比肩稀疏点标注
我们在ScanNetV2(室内点云数据集,20个语义类别,18个需实例分割)和S3DIS(6个区域,13个语义类别)上测试,核心指标包括实例分割的AP(平均精度)、AP50(IoU=0.5时的AP)、AP25(IoU=0.25时的AP),以及语义分割的mIoU(平均交并比)。
核心图表解读

表1:ScanNetV2实例分割结果
DBGroup仅用场景级标注,AP达28.6,AP50达46.2,远超基于稀疏点标注的多数方法(如3D-WSIS的AP=28.1),仅略低于部分方法,充分证明场景级标注的有效性——用更低的标注成本,实现了接近稀疏点标注的性能。

表2:S3DIS实例分割结果
DBGroup的AP达27.1,AP50达40.5,同样优于基于稀疏点标注的方法(如3D-WSIS的AP=23.3),且召回率(mRec=44.8)表现突出,说明能有效捕捉更多实例。

表3:语义分割结果
DBGroup在ScanNetV2的mIoU达56.9,S3DIS的mIoU达48.2,远超所有基于场景级标注的方法(如WYPR的ScanNetV2 mIoU=49.7),证明双分支提取的语义线索更精准。
四、总结:低成本3D实例分割的新范式
DBGroup的核心价值在于“用场景级标注实现高精度实例分割”,关键创新有三点:
- 双分支点分组:结合语义和掩码线索,生成互补的粗/细粒度实例掩码,弥补场景级标注的信息缺失;
- 伪标签优化:GAIM和SSP分别解决实例分割的欠/过分割、语义标签的噪声问题,提升伪标签质量;
- 实例掩码过滤:解决伪标签不一致问题,让自训练更稳定。
实验证明,DBGroup不仅性能比肩稀疏点标注方法,还大幅降低了标注成本,为3D实例分割的规模化应用提供了可能。未来可进一步优化超点生成效率,减少计算开销,同时提升复杂场景下伪标签的生成精度。

发表回复