2026-01-23 字节新作HUVR:当隐式神经表示(INR)遇见知识蒸馏,视觉编码“识别+生成”大一统的新范式

原文链接:https://zhuanlan.zhihu.com/p/1997963190563275146

最近,来自字节跳动的研究团队发布了一篇引人注目的论文,提出了一种名为“用于统一视觉表征的超网络” (Hyper-networks for Unified Visual Representation),简称 HUVR 的新模型。它的核心思想是借助隐式神经表示(Implicit Neural Representation, INR)和知识蒸馏,训练出一个能同时胜任“识别”与“生成”两大类任务的通用视觉编码器。更令人惊艳的是,该模型还能生成一种名为“微型令牌”(Tiny Tokens, TinToks)的超压缩版图像嵌入,在维度压缩高达96倍的情况下,依然保持着惊人的性能。

背景与动机:打破识别与生成的“次元壁”

在计算机视觉领域,模型通常被分为两大流派:一类是“识别派”,如我们熟知的ResNet、ViT以及DINO、CLIP等,它们通过对比学习等方式学习图像的高级语义特征,擅长图像分类、目标检测、语义分割等任务;另一类是“生成派”,如VAE、GAN和扩散模型,它们专注于学习如何重建或生成像素级逼真的图像,是AIGC浪潮的核心技术。

尽管这两个方向都在飞速发展,但它们如同两条平行线,其模型架构、训练目标和所学的表征(representation)大相径庭。识别模型学到的嵌入(embedding)虽然富含语义信息,但通常丢失了重建图像所需的精细纹理细节。反之,生成模型的隐空间(latent space)善于捕捉像素分布,却未必适合直接用于下游的识别任务。

如何打破这堵“次元壁”,训练一个能“左右逢源”的统一视觉编码器?这正是HUVR研究的出发点。一个理想的统一模型,其输出的特征应该“上得厅堂,下得厨房”——既包含用于分类的高级语义,也包含用于分割的中级结构,同时还不能丢掉用于重建的像素级信息。作者认为,隐式神经表示(INR)的超网络(Hyper-network)架构,正是实现这一目标的天然候选。

方法详解:HUVR如何“一统江湖”?

HUVR的核心是一个为INR设计的超网络。简单来说,它不是直接从图像预测出特征向量,而是预测出一个能够“画”出这张图像的小型神经网络(即INR)的权重。

实验与结果:性能超乎想象

HUVR的性能究竟如何?论文给出的大量实验数据可谓相当惊艳。

“微型令牌”(TinToks)的威力

TinToks的表现是本文最大的亮点之一。在传统认知里,将特征维度压缩几十上百倍,性能必然会断崖式下跌。但HUVR彻底改变了这一认知。

如上表所示,以ViT-B模型为例:

  • 当令牌维度被压缩到仅 8维 (96倍压缩率),HUVR的TinToks在ImageNet-1k上的分类准确率达到了 64.1%!相比之下,将强大的DINOv3特征用PCA(主成分分析)暴力降到8维,准确率仅有16.1%。
  • 当维度放宽到 32维,HUVR的准确率飙升至 79.4%,这已经接近甚至超过了很多早期轻量化模型的完整性能。
  • 不仅分类性能强,重建质量(PSNR)也远超基线,证明TinToks真正做到了“鱼与熊掌兼得”。

标准令牌性能全面SOTA

除了压缩空间的TinToks让人印象深刻,HUVR在标准维度下的表现也足以和业界顶尖模型掰手腕。

在ImageNet-1k分类任务上,ViT-B尺寸的HUVR取得了 85.0% 的Top-1准确率,略高于DINOv3(84.6%),与SigLIP 2等SOTA模型持平。

在更考验模型对图像理解能力的密集预测任务上,HUVR同样表现出色。在ADE20K语义分割任务上,HUVR以 52.0 mIoU 的成绩击败了DINOv3(50.8 mIoU)。在NYUv2深度估计任务上,也取得了更低的误差。这些结果充分证明了HUVR表征的全面性和强大。

INR重建与生成能力探索

HUVR的INR超网络设计本身也是一大创新。实验表明,其重建图像的保真度(PSNR)远超之前的INR超网络方法。

此外,作者还探索了将HUVR的嵌入用于扩散模型(DiT)进行图像生成。虽然初步结果(如下图所示)还无法与顶级的生成模型媲美,但已经成功证明了HUVR的嵌入具备驱动生成模型的潜力,为未来的研究开辟了新的可能性。

开源实践指引

作者团队开源了HUVR的完整代码。

根据仓库中的README文件,开发者可以找到详细的安装指南和训练脚本。代码基于PyTorch 2.4.1和CUDA 12.4。不过需要注意的是,截至目前,作者尚未提供预训练好的模型权重,链接仍为“TODO”。

写在最后

总而言之,HUVR为实现“大一统”的通用视觉表征提供了一个优雅且极其有效的方案。它巧妙地利用INR超网络作为桥梁,将像素级的重建任务和语义级的识别任务无缝融合在同一个模型中。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论