2025-11-17 深大&美团合作DBGroup：从工程角度出发，如何降低标注成本

原文链接：https://mp.weixin.qq.com/s/z0qUVeU2YIo6vXbhhNjY3A

一、3D实例分割的痛点：标注成本太高

3D实例分割需要同时预测场景中点云的语义类别和实例掩码，是自动驾驶、机器人、AR/VR等领域的基础任务。

但全监督方法需要逐点标注语义和实例信息，成本极高；弱监督3D实例分割是3D场景理解的关键任务，尤其随着数据规模扩大和全监督方法标注成本飙升，其重要性日益凸显。现有弱监督方法虽降低了标注要求，但仍有缺陷：

一键标注（OTOC）：需为每个实例标注至少一个点，标注者需精准定位，仍耗时；
边界框标注：需为每个实例绘制3D边界框，重叠实例难标注，需专业训练。
标注耗时、复杂度高、依赖专业标注人员等问题。

为此，我们提出DBGroup——一个两阶段弱监督3D实例分割框架，仅需场景级标注（即只需标注场景中包含的物体类别），更高效且易扩展。

文章标题：DBGroup: Dual-Branch Point Grouping for Weakly Supervised 3D Instance Segmentation

图1：标注格式对比

这张图清晰展示了不同标注方式的差异：（a）全监督的逐点标注（耗时耗力）；（b）弱监督的一键/边界框标注（仍需区分实例）；（c）我们的场景级标注（仅需列出场景中的物体类别），标注成本大幅降低。

第一阶段通过双分支点分组模块，结合多视图图像提取的语义和掩码线索生成伪标签，并通过粒度感知实例合并、语义选择与传播两种策略优化标签质量；第二阶段利用优化后的伪标签，通过多轮自训练训练端到端实例分割网络，同时引入实例掩码过滤策略解决伪标签不一致问题。

场景级标注的优势在于：平均每个场景标注时间不到1分钟（远低于一键标注的2分钟+、边界框标注的4分钟+），且无需专业标注者，只需列出场景中的物体类别（比如“房间里有桌子、椅子、床”）。

但场景级标注缺乏实例级信息，如何引导模型分割出单个实例，是核心挑战——DBGroup就是要解决“用粗标注搞精准分割”的问题。

图2：DBGroup整体流程

这张图展示了两阶段框架：第一阶段是伪标签生成与优化，通过双分支点分组和两种优化策略得到高质量伪标签；第二阶段是多轮自训练，用伪标签训练3D实例分割网络，最终输出实例分割结果。

二、核心技术：双分支+伪标签优化，从粗标注到精分割

DBGroup的核心是“用多视图图像的语义和掩码线索，弥补场景级标注的信息缺失”，具体分为伪标签生成与优化、自训练两个阶段。

1. 第一阶段：伪标签生成与优化

通过双分支点分组（语义引导分支+掩码引导分支）生成不同粒度的实例掩码，再通过两种策略优化，得到高质量伪标签。

（1）语义引导分支（SGB）：生成粗粒度实例掩码

（2）掩码引导分支（MGB）：生成细粒度实例掩码

图3：伪标签生成与优化 workflow

这张图详细拆解了第一阶段：SGB从多视图图像提取特征，投影到3D点云后聚类生成粗掩码；MGB用超点提示SAM生成掩码，再投影回3D点云生成细掩码；GAIM合并/拆分掩码优化实例伪标签，SSP过滤语义得分优化语义伪标签。

（3）伪标签优化策略

粒度感知实例合并（GAIM）：整合粗/细掩码的优势

语义选择与传播（SSP）：优化语义伪标签

2. 第二阶段：多轮自训练+实例掩码过滤

（1）网络架构

特征提取：用MinkowskiNet34C作为骨干网络，提取点云特征；
双分支预测：语义分支预测语义得分，偏移分支预测每个点到实例中心的偏移；
聚类与评分：根据偏移和语义，用BFS聚类生成实例候选，再通过ScoreNet评分，最后用非极大值抑制（NMS）筛选最终实例。

（2）实例掩码过滤（IMF）

图4：3D实例分割网络框架

这张图展示了第二阶段的网络流程：3D U-Net提取特征，语义分支和偏移分支分别预测语义标签和偏移；聚类后得到实例候选，经实例掩码过滤和评分网络筛选，输出最终实例分割结果。

三、实验效果：场景级标注比肩稀疏点标注

我们在ScanNetV2（室内点云数据集，20个语义类别，18个需实例分割）和S3DIS（6个区域，13个语义类别）上测试，核心指标包括实例分割的AP（平均精度）、AP50（IoU=0.5时的AP）、AP25（IoU=0.25时的AP），以及语义分割的mIoU（平均交并比）。

核心图表解读

表1：ScanNetV2实例分割结果

DBGroup仅用场景级标注，AP达28.6，AP50达46.2，远超基于稀疏点标注的多数方法（如3D-WSIS的AP=28.1），仅略低于部分方法，充分证明场景级标注的有效性——用更低的标注成本，实现了接近稀疏点标注的性能。

表2：S3DIS实例分割结果

DBGroup的AP达27.1，AP50达40.5，同样优于基于稀疏点标注的方法（如3D-WSIS的AP=23.3），且召回率（mRec=44.8）表现突出，说明能有效捕捉更多实例。

表3：语义分割结果

DBGroup在ScanNetV2的mIoU达56.9，S3DIS的mIoU达48.2，远超所有基于场景级标注的方法（如WYPR的ScanNetV2 mIoU=49.7），证明双分支提取的语义线索更精准。

四、总结：低成本3D实例分割的新范式

DBGroup的核心价值在于“用场景级标注实现高精度实例分割”，关键创新有三点：

双分支点分组：结合语义和掩码线索，生成互补的粗/细粒度实例掩码，弥补场景级标注的信息缺失；
伪标签优化：GAIM和SSP分别解决实例分割的欠/过分割、语义标签的噪声问题，提升伪标签质量；
实例掩码过滤：解决伪标签不一致问题，让自训练更稳定。

实验证明，DBGroup不仅性能比肩稀疏点标注方法，还大幅降低了标注成本，为3D实例分割的规模化应用提供了可能。未来可进一步优化超点生成效率，减少计算开销，同时提升复杂场景下伪标签的生成精度。

2025-11-17 深大&美团合作DBGroup：从工程角度出发，如何降低标注成本

发表回复取消回复

Categories

Archives

2025-11-17 深大&美团合作DBGroup：从工程角度出发，如何降低标注成本

发表回复 取消回复

Categories

Archives

发表回复取消回复