2025-08-06 ACM MM’25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~

原文链接:https://mp.weixin.qq.com/s/0bvKxjAz1ltFU7e3FHDYCw

在自动驾驶场景下的目标检测任务中,如何精准建模多尺度语义信息,一直是影响检测精度与部署效率的关键难题。当前主流架构(如 YOLO、DETR)在追求轻量化和速度的同时,往往牺牲了特征一致性与层次表达能力,难以同时兼顾小目标检测与复杂场景理解。

为此,本文提出了一种 兼顾检测鲁棒性与部署效率的新型检测框架 Butter。该框架在 Neck 层引入两项核心创新:

  • 频率一致性增强模块(FAFCE):融合高频细节增强与低频噪声抑制,提升边界分辨率;
  • 渐进式层次特征融合网络(PHFFNet):逐层融合语义信息,引入空间感知机制,强化多尺度特征表达。

通过上述设计,Butter 实现了对多尺度目标的结构化建模,并在 Cityscapes、KITTI 等数据集上以极低参数量超越现有 SOTA 方法的检测精度,充分展示了其在真实自动驾驶场景下的适应性与工程落地潜力。

  • 论文链接:https://www.arxiv.org/pdf/2507.13373
  • 代码仓库:https://github.com/Aveiro-Lin/Butter

图1. 本图对比了所提出的 Butter 模型与目前两种最主流的二维目标检测方法YOLOv12和Hyper-YOLO在Neck结构设计上的差异

 动机

在自动驾驶目标检测系统中,Neck 部署结构的设计对于平衡检测精度与模型效率至关重要。尽管当前已有多种轻量化方法被广泛应用(如 YOLO 系列),但这些方法常常在追求速度的同时,牺牲了特征表达的完整性与频率一致性,导致小目标漏检率高、边缘模糊、响应不稳定等问题,难以适应真实复杂路况。

现有 Neck 结构的常见问题主要集中在两类:

  1. 频率混叠:当前方法往往在上采样或融合阶段破坏了特征的频率结构,缺乏显式的频率建模机制,导致特征表达能力下降。
  2. 融合过程僵化:大多数 Neck 采用固定结构进行信息堆叠,无法根据不同尺度或语义层次进行动态融合,建模缺乏层次感,导致检测器感知能力受限。

为了克服上述结构性瓶颈,本文提出了一个 兼顾频率建模与多尺度融合的新型 Neck 框架 —— Butter,通过解耦式设计实现精度与效率的统一。

核心贡献:

  1. 本文设计了一个 频率一致性增强模块(FAFCE),首次在 Neck 层引入频域滤波思想,有效增强目标边界特征,抑制背景噪声。
  2. 提出 分层融合结构 PHFFNet,通过渐进式语义聚合提升多尺度表达能力,并引入空间感知机制。
  3. 本文在 Cityscapes、KITTI和BDD100K 等多个自动驾驶数据集上进行了广泛实验,验证了所提结构在多目标检测中的优势。
  4. 方法具备良好的 通用性与部署适配性,适用于主流 SOTA 检测器,具备轻量化潜力,可用于高性能自动驾驶视觉系统部署。

方法简述

为了实现在复杂道路场景中的高精度目标检测与结构感知,本文提出了一个新颖的多阶段联合优化的目标检测框架Butter,其整体框架如图2所示。该模型专为自动驾驶环境中的单目图像目标检测任务设计,致力于在保证检测精度的同时,提升对遮挡物、结构边缘和语义层级的感知能力。

图 2: Butter 模型在自动驾驶目标检测中的完整工作流程

1)流程从一张尺寸为 640×640 的单目图像开始,经由 Backbone 模块中的 HGStem 提取初始特征;随后,这些特征将通过一系列轻量化 HGBlock、深度可分离卷积(DWConv)、以及卷积注意力模块(CBAM) 进行进一步细化,然后送入 Neck 模块。Neck 模块由两部分组成:FAFCENet 与 PHFFNet。在 Neck 模块之后,模型在 Head 层使用四个输出头,生成包括类别标签、置信度分数和边界框等在内的最终检测结果。
2)左下角的 CBAM 模块对通道与空间注意力进行建模,引导网络关注关键特征区域。
3)右上角的分层融合模块(Hierarchical Fusion Block)通过上下文感知空间融合模块(CASF)实现多层级的特征交互。图中水平方向箭头表示特征交换,斜向箭头表示上采样与下采样过程。

(1) Backbone轻量化改进

在 Backbone 设计中,本文以 HGNetV2 为基础进行轻量化改进,构建了更适用于自动驾驶场景的主干网络。我们提出的轻量级 HGBlock 用 GhostConvRepConvDWConv 和 LightConv 等模块替代传统卷积层,从而显著减少参数量,提升推理效率。

进一步地,我们将 Stage2 至 Stage4 中原有的 LDS 模块 替换为更具代表性的 DWConv 模块,在保持特征表达能力的同时优化计算开销。为增强特征提取与表达能力,我们在 Stage4 阶段后引入了 SPPF 模块(Spatial Pyramid Pooling Fast) 与 CBAM 注意力模块(Convolutional Block Attention Module),用于进行多尺度语义增强与注意力引导。

这种模块引入顺序的设计,避免了低层特征提取阶段过早引入复杂运算导致的学习干扰,同时充分利用高层特征的上下文信息,对目标进行更精确的识别与定位。整体策略在 保证实时性 的同时,增强了网络在复杂驾驶环境中的多尺度感知与判别能力

图 3: 原始 HGNetV2 与轻量化 Butter 主干网络的架构对比图

(2) 频率自适应特征一致性增强(FAFCE)组件

图 4:FAFCE 组件架构

(3) 分层渐进特征融合网络(PHFFNet)组件

实验结果

(1) 定量分析

本文在三个主流自动驾驶数据集上对 Butter 模型进行了全面评估,包括 KITTIBDD100K 和 Cityscapes,并与多个主流轻量级检测方法进行了对比。

在 KITTI 数据集上,Butter 在 mAP@50 上达到 94.4%,比当前最优方法 TOD-YOLOv7 高出 1.2 个百分点,而计算量(GFLOPs)仅为后者的约 1/3,展示了出色的 性能与效率平衡

在 BDD100K 和 Cityscapes 数据集上,Butter 分别取得 53.7% 和 53.2% 的 mAP@50,显著优于同为轻量级的 Hyper-YOLO-S 方法,尤其在 Cityscapes 上提升达到 1.6。同时,Butter 模型的 参数量 比 Hyper-YOLO-S 减少了约 64%,显示出更优的 部署适应性

综上,Butter 在保持检测精度领先的同时,显著降低了 模型复杂度,兼顾 检测性能效率 和 可部署性,在多个数据集上实现了最优的综合性能。

图 5: KITTI, BDD100K和Cityscapes数据集测试结果

(2) FAFCE 定性分析

为了进一步验证 FAFCE(Feature-Aware Fusion and Context Enhancement) 模块对目标检测性能的提升作用,本文对其 感受野变化 和 注意力热力图 进行了对比分析,如图 5 和图 6 所示。

在图 5 中,我们观察到:
在 未使用 FAFCE 模块 的情况下,模型的特征响应主要集中在图像中心区域,响应范围较窄,颜色变化不明显,说明模型的感受野较小,无法充分利用图像中的上下文信息。
而 引入 FAFCE 后,图像的响应区域更广泛,颜色对比明显增强,反映出模型对图像上下文和细节的关注程度显著提升。

在图 6 的热力图对比中也可以直观地看出:

  • 未使用 FAFCE 的模型注意力较为分散,关注区域模糊,容易导致目标定位不准确;
  • 加入 FAFCE 后,注意力更集中于关键目标及其上下文区域,显著提升了模型对关键物体的识别能力。

这一变化说明 FAFCE 模块能够有效增强模型的上下文感知能力,提升注意力机制的集中性和判别性,从而提高目标检测的准确性,特别适用于自动驾驶等需要精细理解场景的任务。

图 6: 感受野中的特征响应

图 7: Butter 模型注意力热力图对比

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论