原文链接:https://zhuanlan.zhihu.com/p/1974806711706605368

- 论文标题: CompTrack
- : Information Bottleneck-Guided Low-Rank Dynamic Token Compression for Point Cloud Tracking
- 作者: Sifan Zhou, Yichao Cao, Jiahao Nie, Yuqian Fu, Ziyu Zhao, Xiaobo Lu, Shuo Wang
- 机构: 东南大学、中南大学、浙江财经大学、INSAIT, Sofia University、明略科技、悉尼大学
- 论文地址: https://arxiv.org/abs/2511.15580
- 录用信息: Accepted by AAAI 2026 (Oral)
大家好,今天想和大家聊一篇来自东南大学、中南大学等机构的最新研究成果,一篇关于3D点云单目标跟踪(Single Object Tracking, SOT)的论文,已被人工智能顶级会议AAAI 2026接收为Oral论文。
这篇论文提出的新框架名为CompTrack,一个非常巧妙的名字,是“Compression for Tracking”的缩写,意指通过压缩来辅助追踪。它直面了当前LiDAR点云追踪任务中的一个核心痛点:数据冗余。具体来说,是双重冗余(dual-redundancy)。这项工作不仅在理论上提出了新颖的解决方案,更在实验中取得了非常亮眼的成果,在单个RTX 3090 GPU上实现了高达90 FPS的实时追踪速度,性能和效率双双在线。
研究背景:点云追踪的“双重冗余”困境
在自动驾驶和机器人领域,基于LiDAR点云的3D单目标跟踪是个关键技术。简单说,就是要在连续的点云序列中,持续锁定并追踪同一个物体。尽管近些年这个领域发展很快,但点云数据本身固有的稀疏性,给精准、高效的追踪带来了不小的麻烦。

作者一针见血地指出了问题的核心,即“双重冗余”:
- 空间冗余 (Spatial Redundancy) :想象一下,在广阔的场景中,我们要追踪一辆车。绝大部分点云数据其实都属于背景(如地面、树木、建筑物),真正属于车辆的点只占一小部分。这些海量的背景点就像噪音,不仅干扰了对目标的准确识别,还白白消耗了大量的计算资源。
- 信息冗余 (Informational Redundancy) :即便我们把前景物体(比如那辆车)单独拎出来,它身上的点也不是个个都有用。车门、车顶这种大平面上的点,它们的局部几何特征非常相似,很难提供精确的定位线索。相比之下,车灯、边角这些结构变化丰富的地方,才是定位的关键。这就好比我们玩“找不同”,肯定会盯着特征明显的地方看。现有方法往往忽略了前景点云内部的这种信息冗余,导致效率受限。
如何同时解决这两种冗余,正是CompTrack试图攻克的难题。
CompTrack:两步走,优雅地解决冗余
为了系统性地消除这两种冗余,CompTrack设计了一个包含两个核心模块的端到端框架。

第一步:空间前景预测器
(SFP),过滤背景噪声
首先登场的是空间前景预测器 (Spatial Foreground Predictor, SFP) ,它的任务是处理“空间冗余”。

SFP是一个轻量级的CNN模块,输入是模板和搜索区域的鸟瞰图(BEV)特征。它会学习预测一个空间重要性热力图,给每个位置打分。分数高的地方,意味着可能是目标所在区域;分数低的地方,则可能是无关背景。通过将这个热力图与原始的搜索特征相乘,SFP能够动态地增强与目标相关的特征,同时抑制背景噪声。
有趣的是,作者从信息熵的角度为SFP的有效性提供了理论支撑。他们指出,在稀疏的点云鸟瞰图中,大部分区域是空的或属于背景,这些区域的信息熵贡献极小。因此,过滤掉这些点在理论上是“信息无损”的,还能为后续处理提供更“纯净”的特征。
第二步:信息瓶颈
引导的动态令牌压缩(IB-DTC),精炼前景信息
解决了背景噪声,接下来就是处理前景内部的“信息冗余”。这是CompTrack的精髓所在,由信息瓶颈引导的动态令牌压缩 (Information Bottleneck-guided Dynamic Token Compression, IB-DTC) 模块完成。

这个模块的目标,是将数量众多但信息冗余的前景特征令牌(tokens),压缩成一小组紧凑且信息量高度浓缩的“代理令牌”(proxy tokens),同时保留对追踪任务最关键的判别性信息。
该方法巧妙地融合了信息瓶颈(Information Bottleneck, IB)原理和低秩近似(Low-Rank Approximation)理论。
- 理论依据:信息瓶颈原理告诉我们,一个好的压缩表示,应该在尽可能压缩输入信息的同时,最大化保留与预测目标相关的信息。作者指出,前景特征矩阵的信息冗余,在数学上对应其特征空间的“低有效秩”特性。根据Eckart-Young定理,对一个矩阵进行奇异值分解(Singular Value Decomposition, SVD)并保留其最大的K个奇异值,是该矩阵的最佳K秩近似。由于前景特征的奇异值会快速衰减,所以用少数几个主成分就能很好地近似原始特征,从而实现信息近乎无损的压缩。
- 实现方式:直接在神经网络中用SVD是不可导的。因此,作者设计了一种SVD引导的动态压缩机制:
(Online Rank Estimation) :对每个输入样本,模块会先进行一次快速的、不参与反向传播的SVD,分析其奇异值能量分布,从而动态地确定当前样本的“有效秩”K。这个K决定了需要多少代理令牌来表示当前的前景。
动态查询学习 (Dynamic Query Learning) :模块维护一个可学习的查询池。根据上一步计算出的K,动态选择前K个查询,并结合SVD计算出的最优基向量,生成最终的“激活查询”(active queries)。
引导交叉注意力
- (Guided Cross-Attention) :最后,利用这些激活查询和原始的前景令牌进行交叉注意力计算,生成最终的、压缩后的代理令牌序列。
这个混合方法非常聪明,它利用SVD的理论最优性来指导压缩比例,同时又通过可学习的查询和注意力机制来保证端到端训练的可行性,让模型能自适应地为不同目标、不同场景找到最佳的压缩策略。
实验结果:精度与速度的双重胜利
理论说得好,还得看疗效。CompTrack在KITTI、nuScenes和Waymo
这三大主流自动驾驶数据集上进行了全面验证。

在经典的KITTI数据集上,CompTrack在“车辆”类别上取得了73.4%的成功率和85.2%的精确率,全面领先于之前的方法。更重要的是,它的运行速度达到了惊人的90 FPS,远超其他主流的高精度追踪器。


在点云更稀疏、场景更复杂的nuScenes和Waymo数据集上,CompTrack同样表现出色,均取得了SOTA级别的性能,展现了强大的泛化能力。例如,在nuScenes上,其平均成功率和精确率分别达到了61.04%和73.68%,再次证明了其方法的有效性。


通过消融实验,作者也验证了SFP和IB-DTC两个模块的有效性。单独使用SFP或IB-DTC都能带来性能提升,而将二者结合,则能实现精度和速度的最优权衡。有趣的是,关于IB-DTC中的查询生成方式,实验表明,单纯使用可学习查询或单纯使用SVD先验,效果都不如将两者结合的混合策略,这充分说明了其设计的巧妙之处。

在nuScenes数据集上对跟踪结果进行了可视化分析。可以观察到,无论是在密集场景(a-)还是稀疏场景(a-2)中,CompTrack方法相较于先前SOTA方法P2P都能实现更紧密的目标跟踪,凸显了其卓越性能。此外,通过特征图可视化展示了SPF与IB-DTC模块的设计效果(b),这些可视化结果进一步验证了CompTrack架构的有效性。
总结
总的来说,CompTrack这篇论文为3D点云目标跟踪领域提供了一个非常有价值的新思路。它首次系统性地分析并解决了点云数据中的空间和信息双重冗余问题,并通过SFP和IB-DTC两个创新模块,在理论和实践上都给出了优雅且高效的解决方案。
这项工作不仅刷新了多个榜单的SOTA记录,更重要的是,它在保证高精度的同时,实现了非常高的运行效率,为3D追踪技术在自动驾驶等对延迟极其敏感的真实世界应用中的落地,迈出了坚实的一步。

发表回复