2026-02-10 加速2.67倍+精度无损!中科院开源Fast-SAM3D:免训练的3D重建加速框架

原文链接:https://mp.weixin.qq.com/s/TgvXnc4HoNwc48ThhRUPxQ

论文信息

标题:Fast-SAM3D: 3Dfy Anything in Images but Faster

作者:Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

机构:Institute of Computing Technology, Chinese Academy of Sciences、University of Chinese Academy of Sciences、School of Artificial Intelligence, China University of Mining & Technology, Beijing、ETH Zurich、City College of New York, City Univeristy of New York, USA、Shanghai Jiao Tong University

原文链接:https://arxiv.org/abs/2602.05293

代码链接:https://github.com/wlfeng0509/Fast-SAM3D

导读

SAM3D能够实现复杂场景的可扩展、开放世界3D重建,但其应用受到过高推理延迟的制约。在本研究中,我们首次系统地分析了其推理过程,发现通用加速策略在这种环境下并不适用。研究指出,这些问题的根源在于忽视了处理流程中的多层次异质性:即形状与布局在运动特性上的差异、纹理细化的固有稀疏性以及不同几何体之间的光谱差异。为了解决这些问题,我们提出了Fast-SAM3D这一无需训练的框架,该框架能够动态调整计算资源以匹配实时的生成需求。我们的方法整合了三种考虑异质性的机制:(1)模态感知步骤缓存机制,用于将结构演化与敏感的布局更新分离;(2)时空联合标记切割机制,用于将细化资源集中在高熵区域;(3)光谱感知标记聚合机制,用于动态调整解码分辨率。大量实验表明,Fast-SAM3D的效率可提升至2.67倍。端到端加速效果显著,且保真度损失可忽略不计,这为高效单视图3D生成建立了新的帕累托前沿。

效果展示

Fast-SAM3D将最先进的单视图重建模型SAM3D的加速速度提升至最高2.67倍,同时保持几何保真度和语义一致性。

引言

能够从最少用户输入中恢复高质量以物体为中心三维资产的统一三维重建模型正成为可扩展三维感知与内容创建的关键基础。其中,SAM3D具有独特性,它能直接从单张场景图像执行基于掩码的开放世界多物体重建,无需类别特定训练即可实现任意物体的实际重建。然而,这种强大的重建质量和泛化能力伴随着巨大的计算开销,严重阻碍了实际部署。

本研究首次对SAM3D的推理特性进行了系统化探究。性能剖析表明,延迟并非均匀分布,而是主要由三个耦合组件主导:双阶段迭代去噪过程,以及长令牌序列解码的组合复杂性。关键的是,我们发现直接应用通用加速技术会产生脆弱性。这源于该流程固有的多层级异构性:稳定形状演化与敏感布局更新之间的动力学特性差异,均匀跳步会导致姿态漂移;纹理细化的内在稀疏性,均匀计算会在低熵表面浪费资源;以及不同几何体间的频谱差异,实例无关的下采样会抹除复杂形状的高频细节。这些发现意味着加速SAM3D需要从孤立优化转向模型感知的设计。

为此,我们提出Fast-SAM3D——一个无需训练、端到端的加速框架,其核心统一原则是:非均匀分配计算资源,匹配各阶段特定难度与实例特定复杂度。Fast-SAM3D通过三个即插即用模块实现这一原则:针对结构生成器的模态感知步骤缓存,通过解耦缓存规则加速形状演化,同时锚定敏感布局属性;针对潜在生成器的联合时空令牌雕刻,通过将细化计算集中于动态选定的活跃区域以消除冗余;以及针对网格解码的光谱感知令牌聚合,利用几何频谱熵积极压缩简单形状,同时保留复杂几何体的细节。

主要贡献

我们的贡献总结如下:

• 系统化性能剖析:首次对SAM3D流程进行了模块级特性分析,识别关键延迟源,并揭示通用加速策略因运动学与频谱异构性而失效的原因。

• 整体化框架:提出Fast-SAM3D这一统一的免训练框架,通过利用各阶段特定冗余系统化加速几何、纹理及解码阶段。

• 自适应组件:设计了三个轻量级模块:模态感知缓存、时空令牌雕刻和光谱感知聚合,共同实现延迟大幅降低且保持重建质量。

• 强实证结果:大量实验证明,该方法在多样物体和场景上实现了显著的端到端加速,且重建保真度下降可忽略不计。

方法

图2展示了所提Fast-SAM3D框架概览。我们整合了三个异构感知模块,使计算与各阶段特定动态对齐:阶段一通过模态感知步骤缓存,将形状令牌的平滑演化与布局令牌的敏感轨迹解耦;阶段二通过联合时空令牌雕刻,动态消除冗余,仅将细化计算集中于高熵区域;阶段三通过光谱感知令牌聚合,基于实例特定几何复杂度调整解码网格密度。

实验结果

表2结果显示,Fast-SAM3D在效率与质量间达到了最优权衡。

性能与效率:我们的方法实现了显著加速,场景和物体生成分别获得2.01倍和2.67倍加速,大幅优于纯跳步基线方法。值得注意的是,Fast-SAM3D保持甚至超越了基础模型的几何保真度,我们将此归因于显著性机制的降噪效果,有效修剪了原始全令牌生成中固有的高频噪声。

基线分析:对比突显出现有方法在单视图设置中的局限性。Fast-SAM3D成功弥合了这些差距,在确保几何鲁棒性的同时实现了最大端到端加速。

总结 & 未来工作

本工作中,我们识别并解决了阻碍开放世界三维重建框架交互式部署的关键延迟瓶颈。通过对SAM3D推理动态的首个系统分析,我们揭示了通用加速器低效的根源在于其无法适应三维生成固有的多层级异构性。为此,我们提出了Fast-SAM3D这一免训练加速框架,能动态协调计算资源与即时生成复杂度。通过协同模态感知步骤缓存、时空令牌雕刻和光谱感知聚合,我们的方法成功将结构演化与冗余计算解耦。大量实验证明,Fast-SAM3D实现了2.67倍的显著加速,同时保持并在某些情况下提升了几何保真度。我们希望这项工作为高效单视图三维生成建立新基线,并激励未来针对复杂扩散流程的异构感知优化研究。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论