2026-01-23 字节新作HUVR：当隐式神经表示(INR)遇见知识蒸馏，视觉编码“识别+生成”大一统的新范式

原文链接：https://zhuanlan.zhihu.com/p/1997963190563275146

最近，来自字节跳动的研究团队发布了一篇引人注目的论文，提出了一种名为“用于统一视觉表征的超网络” (Hyper-networks for Unified Visual Representation)，简称 HUVR 的新模型。它的核心思想是借助隐式神经表示（Implicit Neural Representation, INR）和知识蒸馏，训练出一个能同时胜任“识别”与“生成”两大类任务的通用视觉编码器。更令人惊艳的是，该模型还能生成一种名为“微型令牌”（Tiny Tokens, TinToks）的超压缩版图像嵌入，在维度压缩高达96倍的情况下，依然保持着惊人的性能。

论文标题: Implicit Neural Representation Facilitates Unified Universal Vision Encoding
作者机构: TikTok
论文地址: https://arxiv.org/abs/2601.14256
代码仓库: https://github.com/tiktok/huvr (已开源)

背景与动机：打破识别与生成的“次元壁”

在计算机视觉领域，模型通常被分为两大流派：一类是“识别派”，如我们熟知的ResNet、ViT以及DINO、CLIP等，它们通过对比学习等方式学习图像的高级语义特征，擅长图像分类、目标检测、语义分割等任务；另一类是“生成派”，如VAE、GAN和扩散模型，它们专注于学习如何重建或生成像素级逼真的图像，是AIGC浪潮的核心技术。

尽管这两个方向都在飞速发展，但它们如同两条平行线，其模型架构、训练目标和所学的表征（representation）大相径庭。识别模型学到的嵌入（embedding）虽然富含语义信息，但通常丢失了重建图像所需的精细纹理细节。反之，生成模型的隐空间（latent space）善于捕捉像素分布，却未必适合直接用于下游的识别任务。

如何打破这堵“次元壁”，训练一个能“左右逢源”的统一视觉编码器？这正是HUVR研究的出发点。一个理想的统一模型，其输出的特征应该“上得厅堂，下得厨房”——既包含用于分类的高级语义，也包含用于分割的中级结构，同时还不能丢掉用于重建的像素级信息。作者认为，隐式神经表示（INR）的超网络（Hyper-network）架构，正是实现这一目标的天然候选。

方法详解：HUVR如何“一统江湖”？

HUVR的核心是一个为INR设计的超网络。简单来说，它不是直接从图像预测出特征向量，而是预测出一个能够“画”出这张图像的小型神经网络（即INR）的权重。

实验与结果：性能超乎想象

HUVR的性能究竟如何？论文给出的大量实验数据可谓相当惊艳。

“微型令牌”(TinToks)的威力

TinToks的表现是本文最大的亮点之一。在传统认知里，将特征维度压缩几十上百倍，性能必然会断崖式下跌。但HUVR彻底改变了这一认知。

如上表所示，以ViT-B模型为例：

当令牌维度被压缩到仅 8维 (96倍压缩率)，HUVR的TinToks在ImageNet-1k上的分类准确率达到了 64.1%！相比之下，将强大的DINOv3特征用PCA（主成分分析）暴力降到8维，准确率仅有16.1%。
当维度放宽到 32维，HUVR的准确率飙升至 79.4%，这已经接近甚至超过了很多早期轻量化模型的完整性能。
不仅分类性能强，重建质量（PSNR）也远超基线，证明TinToks真正做到了“鱼与熊掌兼得”。

标准令牌性能全面SOTA

除了压缩空间的TinToks让人印象深刻，HUVR在标准维度下的表现也足以和业界顶尖模型掰手腕。

在ImageNet-1k分类任务上，ViT-B尺寸的HUVR取得了 85.0% 的Top-1准确率，略高于DINOv3（84.6%），与SigLIP 2等SOTA模型持平。

在更考验模型对图像理解能力的密集预测任务上，HUVR同样表现出色。在ADE20K语义分割任务上，HUVR以 52.0 mIoU 的成绩击败了DINOv3（50.8 mIoU）。在NYUv2深度估计任务上，也取得了更低的误差。这些结果充分证明了HUVR表征的全面性和强大。

INR重建与生成能力探索

HUVR的INR超网络设计本身也是一大创新。实验表明，其重建图像的保真度（PSNR）远超之前的INR超网络方法。

此外，作者还探索了将HUVR的嵌入用于扩散模型（DiT）进行图像生成。虽然初步结果（如下图所示）还无法与顶级的生成模型媲美，但已经成功证明了HUVR的嵌入具备驱动生成模型的潜力，为未来的研究开辟了新的可能性。

开源实践指引

作者团队开源了HUVR的完整代码。

代码仓库: https://github.com/tiktok/huvr

根据仓库中的README文件，开发者可以找到详细的安装指南和训练脚本。代码基于PyTorch 2.4.1和CUDA 12.4。不过需要注意的是，截至目前，作者尚未提供预训练好的模型权重，链接仍为“TODO”。

写在最后

总而言之，HUVR为实现“大一统”的通用视觉表征提供了一个优雅且极其有效的方案。它巧妙地利用INR超网络作为桥梁，将像素级的重建任务和语义级的识别任务无缝融合在同一个模型中。

2026-01-23 字节新作HUVR：当隐式神经表示(INR)遇见知识蒸馏，视觉编码“识别+生成”大一统的新范式

背景与动机：打破识别与生成的“次元壁”

方法详解：HUVR如何“一统江湖”？