2026-02-08 10项任务刷新SOTA!MetricAnything:重构3D感知框架,6大场景单目深度翻倍!

原文链接:https://mp.weixin.qq.com/s/p3oh23rPExt1uR0_mhIBnQ

0.这篇文章干了啥?

这篇文章提出了Metric Anything,一种用于度量深度估计的可扩展预训练框架,旨在解决度量深度估计中因异构传感器噪声、相机相关偏差和跨源3D数据的度量歧义等问题,实现从嘈杂、多样的3D源中学习度量深度的目标。核心创新在于使用稀疏度量提示(Sparse Metric Prompt)将空间推理与传感器和相机偏差分离,从而有效利用异构数据。

1. 论文信息

  • 论文题目:MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
  • 作者:Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Xie Yan, Wei Chen
  • 作者机构:Li Auto Inc
  • 论文链接:https://arxiv.org/pdf/2601.22054

2. 摘要

模型规模的扩大推动了近期视觉基础模型的进步,然而,由于异构传感器噪声、相机相关偏差以及嘈杂的跨源三维数据中的度量模糊性,将这一范式扩展到度量深度估计仍然具有挑战性。我们提出了Metric Anything,这是一个简单且可扩展的预训练框架,它能够从嘈杂、多样的三维数据源中学习度量深度,而无需手动设计提示、特定相机建模或特定任务架构。

我们方法的核心是稀疏度量提示,通过随机掩码深度图创建,它作为一个通用接口,将空间推理与传感器和相机偏差分离。我们使用了约2000万个图像 – 深度对,这些数据涵盖了10000多种相机模型的重建、捕捉和渲染的三维数据,首次在度量深度领域展示了清晰的扩展趋势。预训练模型在基于提示的任务(如深度补全、超分辨率和雷达 – 相机融合)中表现出色,而其提炼的无提示学生模型在单目深度估计、相机内参恢复、单/多视图度量三维重建和VLA规划等任务上取得了最先进的成果。

我们还表明,将Metric Anything的预训练视觉Transformer(ViT)用作视觉编码器,可显著提升多模态大语言模型在空间智能方面的能力。这些结果表明,度量深度估计可以从驱动现代基础模型的相同扩展定律中受益,为可扩展且高效的现实世界度量感知开辟了一条新路径。我们在https://metric-anything.github.io/metric-anything-io/上开源了Metric Anything,以支持社区研究。

3. 效果展示

图5:深度图超分与补全可视化。我们的方法在缺失区域重建上结构更完整、细节更清晰。

图6:在挑战性测试样本上的零样本视觉对比。我们的模型在薄细结构与困难光照场景中仍能稳健地捕捉细节,而对比方法常出现失效。

4. 主要贡献

文章的主要贡献如下:

  1. Metric Anything:一种简约的基于提示的预训练范式,采用稀疏度量提示将空间理解与传感器偏差解耦,从而能够从异构的3D数据源进行可扩展的学习。
  2. 证明可扩展性:聚合2000万个不同的深度 – 图像对,揭示了度量深度估计中此前未被发现的稳定可扩展性趋势。
  3. 通用泛化性:预训练模型和蒸馏后的无提示学生模型在十个下游任务中均实现了最先进的性能,且无需针对特定任务进行工程设计。

5. 基本原理是啥?

Metric Anything 框架概述

Metric Anything 是一个用于度量深度估计的可扩展预训练框架,旨在通过简单、可扩展的基于提示的预训练范式,利用大规模异构 3D 数据解锁度量深度感知能力,避免了特定任务架构和手动设计提示。

多源数据收集

  • 聚合开源 3D 数据集,将所有输入标准化为具有有效性掩码的度量深度图,其中分别表示沿相机 z 轴的度量深度和有效测量。
  • 数据来源包括:
    • 重建的 3D 数据:从多种重建技术(如 SfM、SLAM、MVS 等)产生的开源数据集中收集深度图,这些图常包含伪影和缺失区域。
    • 捕获的 3D 数据:整合 LiDAR、ToF 和 RGB – D 传感器捕获的点云,通过投影得到深度图,传感器数据通常存在噪声和稀疏性问题。
    • 渲染的 3D 数据:包含少量从虚拟引擎渲染的深度图,这些图无噪声,保留精细结构细节,提供有价值的几何监督。
  • 最终数据集包含约 2000 万对图像 – 深度对,由 10000 多种不同相机模型捕获,涵盖各种真实和合成场景。

基于稀疏度量提示的预训练

  • 问题表述:给定单目图像和对应的稀疏度量提示,预训练目标是学习一个由参数化的函数,使其能根据提示从输入图像预测出密集的度量深度图。
  • 提示准备:从每个数据源的深度图中随机采样 2000 到 40000 个有效像素,构建稀疏度量提示及其对应掩码。并通过应用预训练的深度预测模型、像素级深度尺度对齐(PDSA)和全局度量深度恢复(GMDR)等步骤,将提示映射到共享中间域,得到统一和正则化的表示。
  • 提示注入:采用提示注入机制,允许模型纠正有噪声的提示并生成准确的密集深度预测。选择有条件的 DPT 头进行提示注入,它引入约 5% 的额外参数,同时保持效率,主要网络路径用于纠正噪声和结构不一致。
  • 预训练目标:对于合成数据,使用平均绝对误差(MAE)和尺度 – 平移不变平均绝对梯度误差(SSI – MAGE)损失;对于真实世界数据,采用鲁棒 MAE 损失,在训练中丢弃每幅图像中损失最大的前 20% 区域。

无提示模型蒸馏

  • 蒸馏过程:将预训练的(教师)模型蒸馏为无提示的学生模型,该学生模型仅从 RGB 输入进行密集深度预测。利用教师模型为所有真实世界图像生成高保真伪深度图,作为监督信号训练学生模型。
  • 学生模型改进
    • 设计距离平衡的逆深度损失,在近区域保持细粒度敏感性,同时将有效监督扩展到远距离区域,深度值在对数空间中定义,其中包含一个控制长距离和短距离监督权衡的超参数。
    • 反转 ViT 编码器和 DPT 头之间的传统跳跃连接方案,将深层、高级的 ViT 特征注入到靠近输出的更深解码层,浅层、低级特征输入到较浅的解码器层,充分利用教师生成的伪标签中丰富的语义线索。

6. 实验结果

文章通过一系列实验验证了Metric Anything方法在多个下游任务中的有效性和优越性,具体实验结果如下:

基于提示的下游任务

  • 零样本深度超分辨率和补全:在零样本设置下,经预训练的模型在所有提示类型和数据集上均展现出很强的性能,持续超越后对齐和基于先验的基线模型。相比之下,该模型仅使用简单、稀疏采样的提示进行一次训练,且以完全零样本的方式运行,无需任何特定任务设计或提示对齐,从而在不同提示密度、空间布局和场景领域中实现了卓越的泛化能力。
  • 雷达 – 相机深度估计:在nuScenes数据集上,使用雷达提示对预训练模型进行微调,取得了最先进的性能,其准确性几乎是从头开始训练的模型的两倍,并超越了所有先前的融合方法。这表明该预训练范式具有有效的扩展性,能够使模型学习到通用的度量表示,从而无缝适应毫米波雷达等新的、未见的传感模态。

无提示下游任务

单目深度估计

  • 单目度量深度图:在六个数据集上的严格零样本协议评估中,文章方法在不同领域均展现出显著的鲁棒性和一致性。在室内复杂几何场景中表现最佳,能有效解决受限空间中的复杂局部几何问题;在室外驾驶场景中具有很强的竞争力;在具有挑战性的数据集上,如Booster和Sintel,也能展现出良好的适应性和性能。
  • 单目度量点云图:通过使用预训练模型生成的伪标签对最先进的方法进行微调,蒸馏方法始终能达到最先进的性能,对预测头和网络初始化的差异具有很强的鲁棒性。

相机内参恢复:使用微调后的“Student – PointMap”模型预测的点云图来推断相机的内参,在平均误差和中位数误差方面达到了最佳的平均精度,表明该模型能够准确地从点云图中推断出相机的内参。

零样本边界精度测量:使用“Student – DepthMap”模型在两个合成基准和一个真实世界数据集上评估预测几何的清晰度,与DepthPro和MoGe – 2相比,文章方法实现了最佳的平均精度边界。

多视图度量3D重建:在无提示的情况下,与最先进的多视图度量3D重建方法Map Anything相比,文章方法在度量尺度估计方面表现更优,尤其是在ETH3D和ScanNet测试集上。这表明通过蒸馏,预训练范式能够将其能力转移到无提示的学生模型中,在无提示设置下实现强大的跨视图一致深度预测。

VLA规划:将Metric Anything的能力蒸馏到视觉 – 语言 – 动作(VLA)模型中进行动作规划,模型在LIBERO基准的四个任务上取得了比Depth Anything V2更准确的空间理解和最佳的平均成功率,表明将深度感知蒸馏到VLA策略中是提高操作性能的一个有前途的途径。

MLLMs的空间理解:使用Metric Anything的预训练ViT编码器作为空间感知骨干,为视觉 – 语言模型提供3D感知特征,在VSI – Bench上的评估结果表明,该方法在各种视频问答类别中表现出强大的3D空间理解能力,能够显著增强现有VLM的空间推理能力。

消融实验

数据规模扩展:随着训练数据比例的增加,模型在深度超分辨率任务上的性能逐渐提升,且在大规模数据集上表现最佳。这表明,尽管在小规模数据集上,该模型的性能可能落后于使用复杂规则模拟低分辨率提示的方法,但随着数据规模的增加,由于提示多样性的增加,该模型能够实现更强大的下游任务泛化能力。

网络架构:与经典的U – Net风格跳跃连接架构相比,文章提出的逆跳跃连接设计在使用一致的伪标签进行训练时,能够更好地发挥ViT的语义表示潜力,实现伪标签蒸馏的潜力。此外,即使使用相同的架构,使用文章的伪标签进行训练也能提高性能,证明了预训练模型具有强大的空间理解能力。

运行时间:与网络架构最相似的Depth Pro相比,预训练模型在引入额外提示分支的情况下,推理时间并没有显著增加。此外,文章还提供了两种无提示变体,它们的推理延迟因参数数量的不同而有所变化。

测试时分辨率缩放:模型具有“测试时分辨率缩放”的显著能力,能够在处理输入图像时,将分辨率显著提高到训练时未遇到的水平,从而实现更精细的深度预测。这表明该模型具有在高分辨率深度传感方面的潜力,而无需进行微调。

训练目标:文章提出的距离平衡逆深度损失在近距离范围内与标准逆深度损失表现相当,而在远距离范围内表现更优。随着深度范围的增加,该方法的优势更加明显,验证了该损失函数在大深度范围估计中的有效性。

提示设置:通过改变稀疏度量深度提示的密度,实验结果表明,随着采样像素数量的增加,准确性的提升逐渐减小,而计算复杂度增加。为了平衡准确性和效率,文章在训练和推理过程中随机采样2000 – 40000个有效像素。此外,尽管模型没有明确针对极稀疏提示进行训练,但由于数据规模和多样性的优势,预训练模型在这些情况下仍能保持最先进的性能。

平衡权重:通过尝试不同的平衡权重,实验结果表明,当权重过大时,网络倾向于学习远距离区域的深度而忽略近距离区域的细节;而当权重过小时,网络则倾向于关注近距离区域的几何细节而牺牲远距离区域的监督。因此,文章将该超参数设置为400,以实现合理的权衡。

未见传感器、场景和极端环境条件下的泛化能力

  1. 传感器配置泛化:在使用与训练集不同类型和空间布局的传感器套件进行测试时,模型在深度补全和超分辨率任务中能够准确恢复场景的度量深度,即使面对传感器模态之间的时空不对齐和数据覆盖不完整等问题,也能展现出很强的固有的鲁棒性。
  2. 环境退化下的鲁棒性:在夜间驾驶和雨/雾天气等环境干扰导致感知信号退化的情况下,模型仍能保持可靠的深度估计,证明了其对环境退化的强大鲁棒性。
  3. 未见视觉领域的泛化:在没有提示指导的情况下,模型在全景图像、鱼眼图像和各种野外场景等未见视觉领域的单目深度估计中表现出准确的度量深度估计能力,证实了该模型具有“Metric Anything”的泛化能力。

7. 总结&未来工作

我们提出了Metric Anything,这是一个用于度量深度估计的可扩展预训练框架,它可以从多样化、有噪声的3D数据源中学习,而无需特定任务的架构或手动设计的提示。我们的方法使用稀疏度量提示将空间推理与传感器和相机偏差分离,从而有效地利用了异构数据。实验首次揭示了度量深度任务中明显的扩展效应。预训练模型及其提炼的无提示学生模型在广泛的下游任务中均取得了最先进的结果。这些结果表明,我们的方法为现实世界的深度感知提供了更高效的通用解决方案。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论