原文链接:https://mp.weixin.qq.com/s/J5iDX-KtVPIXN52CG6Cnsg
这篇文章提出了Point-RTD(Replaced Token Denoising),一种用于点云Transformer模型预训练的新策略,旨在通过一种损坏-重建框架提高模型的性能和效率。点云作为一种重要的数据表示在多个领域广泛应用,但因其非结构化特性,使得基于Transformer的架构难以直接应用。目前流行的基于补丁的模型多采用掩码自编码预训练机制,但这并非重建点云数据的最优策略。Point-RTD将替换令牌去噪的概念扩展到点云领域,通过结构化的损坏-重建框架增强令牌鲁棒性和语义一致性。其具体方法包括:利用最远点采样(FPS)和k近邻(kNN)将点云分割成补丁,通过mini-PointNet将输入补丁编码为令牌嵌入;在训练时对令牌序列进行损坏,采用令牌替换策略(随机混合和最近邻混合),并发现随机混合效果更好;使用判别器识别损坏或干净的令牌,生成器对损坏令牌进行去噪;在ShapeNet数据集上进行预训练,并详细给出了预训练算法。实验方面,将Point-RTD与Point-MAE在相同的预训练和微调设置下进行比较。在ShapeNet数据集上,Point-RTD的重建误差(倒角距离)比Point-MAE降低了93%以上;在ModelNet10分类任务中,Point-RTD达到了92.73%的最高分类准确率,且收敛速度更快;在ModelNet40基准测试中,Point-RTD在10票多数机制下达到了94.2%的准确率,超过或匹配了多个强大的基线模型。研究表明,Point-RTD不仅学习到了更高质量的特征和更具可迁移性的表示,还通过一种比传统掩码自编码更强的正则化信号,提高了模型在下游任务中的性能,且其设计具有模型无关性,适用于未来的扩展和适应。
1. 论文信息
- 论文题目:Point-RTD: Replaced Token Denoising for Pretraining Transformer Models on Point Clouds
- 作者:Gunner Stone, Youngsook Choi, Alireza Tavakkoli, Ankita Shukla
- 作者机构:Department of Computer Science and Engineering, University of Nevada, Reno, USA
- 论文链接:https://arxiv.org/pdf/2509.17207
2. 摘要
预训练策略在提升基于Transformer的模型处理三维点云任务的性能方面起着至关重要的作用。在本文中,我们提出了Point-RTD(替换令牌去噪),这是一种新颖的预训练策略,旨在通过一种损坏-重建框架来提高令牌的鲁棒性。与传统的基于掩码的重建任务(隐藏数据片段以供后续预测)不同,Point-RTD会损坏点云令牌,并利用判别器-生成器架构进行去噪。这种转变能够更有效地学习结构先验知识,并显著提升模型的性能和效率。在ShapeNet数据集上,与PointMAE相比,PointRTD将重建误差降低了93%以上,并且在测试集上的倒角距离降低了14倍以上。我们的方法在收敛速度上更快,并且在ShapeNet、ModelNet10和ModelNet40基准测试中实现了更高的分类准确率,在所有情况下都明显优于基线Point-MAE框架。代码可在https://github.com/GunnerStone/PointRTD获取。
3. 效果展示
使用我们的PointRTD模型从ShapeNet的测试集进行的示例重建。每次重建的Chamfer距离都低于0.221×10⁻³。

4. 主要贡献
- 提出Point-RTD,一种基于替换令牌去噪的点云Transformer新型预训练策略,为3D数据的令牌化和自监督学习引入新视角。
- 在多个知名点云基准数据集上评估Point-RTD,展示其在鲁棒性、效率和准确性方面的优势。在ShapeNet上,与PointMAE相比,测试集上的重建误差(倒角距离)降低了93%以上;在Modelnet10上收敛更快,在Modelnet40上实现了更高的分类准确率。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等。
- 提出的Point-RTD框架采用了一种新的腐败机制,包括令牌替换策略,如随机混合和最近邻混合,作为对比正则化,使模型学习到更具判别性和鲁棒性的嵌入。
- Point-RTD的设计与模型无关,其腐败和去噪策略可广泛应用于任何基于补丁的点云Transformer,适用于未来扩展和改编。
5. 基本原理是啥?
1. Point-RTD提出背景
Point-RTD是一种用于点云Transformer模型预训练的新策略。在点云处理中,虽然已有多种适应Transformer架构处理非结构化点云数据的方法,但广泛采用的基于掩码自动编码的预训练机制并非重建点云数据的最优策略。Point-RTD将替换令牌去噪的概念扩展到点云领域,通过结构化的损坏-重建框架增强令牌鲁棒性和语义一致性。
2. 点云令牌化和预处理
Point-RTD采用基于补丁的令牌化方法,与Point-BERT和Point-MAE类似。它使用最远点采样(FPS)和k近邻(kNN)将点云分割成补丁。输入补丁在通过mini-PointNet处理之前,先通过减去补丁中每个点的质心进行归一化,mini-PointNet将其编码为捕获局部几何特征的令牌嵌入。
3. 损坏机制
初始噪声损坏

令牌替换策略
为增强正则化效果,引入令牌替换策略。有两种方式:随机混合(将损坏的令牌用批次中不同样本的随机选择的令牌替换)和最近邻混合(将损坏的令牌用不同类中最相似样本的令牌替换)。随机混合能引入更多损坏模式的多样性,使模型接触更广泛的类间交互,经验上表现更好。这种损坏机制可视为令牌空间中的对比正则化,通过用语义不一致的替代物替换有意义的局部结构,使模型在去噪目标下学习,实现重建驱动学习和隐式语义分离。损坏机制可在令牌嵌入层(Transformer处理前)或上下文令牌层(Transformer层后)应用,在上下文令牌层应用效果稍好。
4. 判别器和生成器
判别器
判别器模型识别令牌是损坏的还是干净的。训练期间,使用加权二元交叉熵损失区分真假令牌,控制训练动态。
生成器
生成器根据判别器的反馈自回归地清理损坏的令牌,最小化清理后的令牌和原始令牌之间的均方误差(MSE),以优化令牌嵌入的准确重建。
5. 预训练算法
在ShapeNet数据集上与Point-MAE一起进行重建任务的预训练。将数据集分为训练集和验证集,仅使用训练集进行预训练。预训练过程包括令牌化、损坏、判别、生成和重建步骤,总损失由判别器损失、生成器损失和Chamfer距离损失组成,最终返回预训练目标的总损失和用于微调的特征嵌入。

6. 实验结果
1. 预训练结果
Chamfer距离(CD)

可视化对比
图3显示,在不同预训练阶段,Point-RTD生成的重建结果比Point-MAE更完整、结构更连贯,与CD趋势相符,证明了RTD正则化技术的有效性。
2. 分类结果
ModelNet10数据集
使用10-投票多数机制计算分类准确率。Point-RTD最高准确率达92.73%,高于Point-MAE的89.76%。Point-RTD收敛速度更快,训练50个epoch时准确率达87.22%,而Point-MAE仅为13.66%;训练150个epoch时,Point-RTD准确率达90.20%,已超过Point-MAE训练300个epoch的最终准确率。
3. ModelNet40数据集验证
分类准确率
表3显示,Point-RTD在ModelNet40上使用10-投票多数机制准确率达94.2%,超过或与多个强大基线模型相当。其线性SVM准确率为93.0%,表明学习到的表示具有线性可分性和良好结构。
t-SNE可视化
图4展示了ModelNet40测试集上学习到的特征嵌入的t-SNE可视化结果。在嵌入空间中,一些在分类任务中常被混淆的类别(如桌子和书桌、梳妆台和床头柜等)靠得很近,这反映了数据集本身标注的模糊性,而非模型错误。
4. 实验讨论
效率优势
在相同预训练和微调超参数下,Point-RTD仅需50个预训练epoch,测试准确率达92.73%,微调时收敛更快,凸显了其高效性。
正则化效果
替换令牌去噪比传统掩码自动编码施加了更强的正则化信号,能促使模型区分真实和损坏的上下文,增强类间边界和特征泛化能力,尤其适用于非结构化3D数据。
竞争力
在ModelNet40基准测试中,Point-RTD准确率达94.2%,线性SVM性能良好,证明其不仅高效,而且在标准基准上具有绝对准确性竞争力。
Point-RTD在多个实验中表现出:
- 更高的重建保真度和特征泛化能力
- 更快的收敛速度和更高的分类准确率
- 更强的正则化效果和线性可分性



7. 总结 & 未来工作
总结
我们提出了 Point-RTD,这是一种基于受替换令牌去噪启发的损坏-重建范式的新型点云变压器预训练框架。通过损坏令牌并利用生成器-判别器架构进行去噪,Point-RTD 学习用于点云重建的有意义的潜在令牌嵌入,同时对潜在空间进行正则化,以提高下游分类任务的类间特征可分离性。
在本研究中,我们专注于在 Point-MAE 框架内应用 Point-RTD,因为它在该领域具有基础性地位和持续影响力。Point-MAE 是一个有代表性且成熟的基准,使我们能够清晰地展示我们方法的优势。然而,Point-RTD 的设计与模型无关:其损坏和去噪策略广泛适用于任何基于补丁的点云变压器。鉴于其与架构无关的设计,该框架非常适合未来的扩展和调整。
Point-RTD 为通过预训练对基于变压器的模型进行正则化提供了一种有效手段,同时也支持端到端训练机制中的强大性能。其多功能性使其能够集成到各种 3D 视觉管道中。
未来与展望
鉴于 Point-RTD 与架构无关的设计,该框架非常适合未来的扩展和调整,且其多功能性使其能够集成到各种 3D 视觉管道中。

发表回复