2025-08-06 ACM MM’25 | 自驾2D目标检测新SOTA！超越最新YOLO Series~

原文链接：https://mp.weixin.qq.com/s/0bvKxjAz1ltFU7e3FHDYCw

在自动驾驶场景下的目标检测任务中，如何精准建模多尺度语义信息，一直是影响检测精度与部署效率的关键难题。当前主流架构（如 YOLO、DETR）在追求轻量化和速度的同时，往往牺牲了特征一致性与层次表达能力，难以同时兼顾小目标检测与复杂场景理解。

为此，本文提出了一种 兼顾检测鲁棒性与部署效率的新型检测框架 Butter。该框架在 Neck 层引入两项核心创新：

频率一致性增强模块（FAFCE）：融合高频细节增强与低频噪声抑制，提升边界分辨率；
渐进式层次特征融合网络（PHFFNet）：逐层融合语义信息，引入空间感知机制，强化多尺度特征表达。

通过上述设计，Butter 实现了对多尺度目标的结构化建模，并在 Cityscapes、KITTI 等数据集上以极低参数量超越现有 SOTA 方法的检测精度，充分展示了其在真实自动驾驶场景下的适应性与工程落地潜力。

论文链接：https://www.arxiv.org/pdf/2507.13373
代码仓库：https://github.com/Aveiro-Lin/Butter

图1. 本图对比了所提出的 Butter 模型与目前两种最主流的二维目标检测方法YOLOv12和Hyper-YOLO在Neck结构设计上的差异

动机

在自动驾驶目标检测系统中，Neck 部署结构的设计对于平衡检测精度与模型效率至关重要。尽管当前已有多种轻量化方法被广泛应用（如 YOLO 系列），但这些方法常常在追求速度的同时，牺牲了特征表达的完整性与频率一致性，导致小目标漏检率高、边缘模糊、响应不稳定等问题，难以适应真实复杂路况。

现有 Neck 结构的常见问题主要集中在两类：

频率混叠：当前方法往往在上采样或融合阶段破坏了特征的频率结构，缺乏显式的频率建模机制，导致特征表达能力下降。
融合过程僵化：大多数 Neck 采用固定结构进行信息堆叠，无法根据不同尺度或语义层次进行动态融合，建模缺乏层次感，导致检测器感知能力受限。

为了克服上述结构性瓶颈，本文提出了一个 兼顾频率建模与多尺度融合的新型 Neck 框架 —— Butter，通过解耦式设计实现精度与效率的统一。

核心贡献：

本文设计了一个 频率一致性增强模块（FAFCE），首次在 Neck 层引入频域滤波思想，有效增强目标边界特征，抑制背景噪声。
提出 分层融合结构 PHFFNet，通过渐进式语义聚合提升多尺度表达能力，并引入空间感知机制。
本文在 Cityscapes、KITTI和BDD100K 等多个自动驾驶数据集上进行了广泛实验，验证了所提结构在多目标检测中的优势。
方法具备良好的 通用性与部署适配性，适用于主流 SOTA 检测器，具备轻量化潜力，可用于高性能自动驾驶视觉系统部署。

方法简述

为了实现在复杂道路场景中的高精度目标检测与结构感知，本文提出了一个新颖的多阶段联合优化的目标检测框架Butter，其整体框架如图2所示。该模型专为自动驾驶环境中的单目图像目标检测任务设计，致力于在保证检测精度的同时，提升对遮挡物、结构边缘和语义层级的感知能力。

图 2： Butter 模型在自动驾驶目标检测中的完整工作流程

1）流程从一张尺寸为 640×640 的单目图像开始，经由 Backbone 模块中的 HGStem 提取初始特征；随后，这些特征将通过一系列轻量化 HGBlock、深度可分离卷积（DWConv）、以及卷积注意力模块（CBAM）进行进一步细化，然后送入 Neck 模块。Neck 模块由两部分组成：FAFCENet 与 PHFFNet。在 Neck 模块之后，模型在 Head 层使用四个输出头，生成包括类别标签、置信度分数和边界框等在内的最终检测结果。
2）左下角的 CBAM 模块对通道与空间注意力进行建模，引导网络关注关键特征区域。
3）右上角的分层融合模块（Hierarchical Fusion Block）通过上下文感知空间融合模块（CASF）实现多层级的特征交互。图中水平方向箭头表示特征交换，斜向箭头表示上采样与下采样过程。

(1) Backbone轻量化改进

在 Backbone 设计中，本文以 HGNetV2 为基础进行轻量化改进，构建了更适用于自动驾驶场景的主干网络。我们提出的轻量级 HGBlock 用 GhostConv、RepConv、DWConv 和 LightConv 等模块替代传统卷积层，从而显著减少参数量，提升推理效率。

进一步地，我们将 Stage2 至 Stage4 中原有的 LDS 模块 替换为更具代表性的 DWConv 模块，在保持特征表达能力的同时优化计算开销。为增强特征提取与表达能力，我们在 Stage4 阶段后引入了 SPPF 模块（Spatial Pyramid Pooling Fast） 与 CBAM 注意力模块（Convolutional Block Attention Module），用于进行多尺度语义增强与注意力引导。

这种模块引入顺序的设计，避免了低层特征提取阶段过早引入复杂运算导致的学习干扰，同时充分利用高层特征的上下文信息，对目标进行更精确的识别与定位。整体策略在 保证实时性 的同时，增强了网络在复杂驾驶环境中的多尺度感知与判别能力。

图 3：原始 HGNetV2 与轻量化 Butter 主干网络的架构对比图

(2) 频率自适应特征一致性增强（FAFCE）组件

图 4：FAFCE 组件架构

(3) 分层渐进特征融合网络（PHFFNet）组件

实验结果

(1) 定量分析

本文在三个主流自动驾驶数据集上对 Butter 模型进行了全面评估，包括 KITTI、BDD100K 和 Cityscapes，并与多个主流轻量级检测方法进行了对比。

在 KITTI 数据集上，Butter 在 mAP@50 上达到 94.4%，比当前最优方法 TOD-YOLOv7 高出 1.2 个百分点，而计算量（GFLOPs）仅为后者的约 1/3，展示了出色的 性能与效率平衡。

在 BDD100K 和 Cityscapes 数据集上，Butter 分别取得 53.7% 和 53.2% 的 mAP@50，显著优于同为轻量级的 Hyper-YOLO-S 方法，尤其在 Cityscapes 上提升达到 1.6。同时，Butter 模型的 参数量 比 Hyper-YOLO-S 减少了约 64%，显示出更优的 部署适应性。

综上，Butter 在保持检测精度领先的同时，显著降低了 模型复杂度，兼顾 检测性能、效率和 可部署性，在多个数据集上实现了最优的综合性能。

图 5： KITTI, BDD100K和Cityscapes数据集测试结果

(2) FAFCE 定性分析

为了进一步验证 FAFCE（Feature-Aware Fusion and Context Enhancement） 模块对目标检测性能的提升作用，本文对其 感受野变化 和 注意力热力图 进行了对比分析，如图 5 和图 6 所示。

在图 5 中，我们观察到：
在 未使用 FAFCE 模块 的情况下，模型的特征响应主要集中在图像中心区域，响应范围较窄，颜色变化不明显，说明模型的感受野较小，无法充分利用图像中的上下文信息。
而 引入 FAFCE 后，图像的响应区域更广泛，颜色对比明显增强，反映出模型对图像上下文和细节的关注程度显著提升。

在图 6 的热力图对比中也可以直观地看出：

未使用 FAFCE 的模型注意力较为分散，关注区域模糊，容易导致目标定位不准确；
加入 FAFCE 后，注意力更集中于关键目标及其上下文区域，显著提升了模型对关键物体的识别能力。

这一变化说明 FAFCE 模块能够有效增强模型的上下文感知能力，提升注意力机制的集中性和判别性，从而提高目标检测的准确性，特别适用于自动驾驶等需要精细理解场景的任务。

图 6：感受野中的特征响应

图 7： Butter 模型注意力热力图对比

2025-08-06 ACM MM’25 | 自驾2D目标检测新SOTA！超越最新YOLO Series~

发表回复取消回复

Categories

Archives

2025-08-06 ACM MM’25 | 自驾2D目标检测新SOTA！超越最新YOLO Series~

发表回复 取消回复

Categories

Archives

发表回复取消回复