2024-08-01 ECCV 2024 | FSD-BEV：北航&极氪联合提出感知新SOTA

基于BEV空间的3D目标检测是自动驾驶当中至关重要的任务之一。由于纯视觉的BEV感知算法部署友好且成本低廉，近年来受到了来自工业界和学术界的广泛关注，基于纯视觉的BEV感知算法目前已经取得了长足的进展。虽然由于激光雷达自身硬件设备成本高，同时采集到的点云数据缺乏物体的颜色以及丰富的纹理信息，但是激光雷达传感器采集到的点云数据可以提供目标准确的几何结构和形状信息，相机传感器采集到的图像数据由于缺少物体准确的深度信息，依旧和基于激光雷达的感知算法在性能上有一定的差距。

受到知识蒸馏等相关工作的启发，在智驾感知任务当中，相关的研究学者们目前已经提出了多种跨模态的蒸馏方法，实现对感知任务有益信息从教师模型转移到学生模型，在不增加额外计算量的情况下进一步提升学生模型的感知性能。

目前较为主流的蒸馏方式即采用性能较好的激光雷达感知算法作为教师模型，感知性能较差的视觉算法作为学生模型。其网络结构可以大体表述为下图的子图(a)。这类蒸馏算法模型的大体思路是利用预先训练好的教师模型将激光雷达点云或多模态输入转换为冻结的教师BEV空间特征，作为学生生成的BEV空间特征的先验指导。但这类蒸馏算法由于激光雷达点云数据模态和相机图像数据模态的不一致以及教师和学生算法网络模型的结构不一致导致从教师模型转换到学生模型的知识过程具有很大的挑战性。

跨模态蒸馏算法和我们提出的自蒸馏算法的网络模型对比图

考虑到上述提到的相关问题，我们提出了一种前景自蒸馏的算法框架称为FSD-BEV，如上图的子图(b)所示。蒸馏框架中的教师分支利用激光雷达点云生成的硬标签来获得高质量的教师BEV空间特征并为学生分支提供指导。同时，学生模型利用预测出来的软标签来填补硬标签的空缺来补偿教师模型。通过在nuScenes数据集上的实验结果表明，我们提出的FSD-BEV算法模型取得了SOTA的检测结果。

文章链接：https://arxiv.org/abs/2407.10135

网络模型的整体架构&细节梳理

在详细介绍本文提出的前景自蒸馏算法模型FSD-BEV之前，下图展示了我们提出的FSD-BEV算法的整体网络结构。

FSD-BEV算法模型的整体网络结构图

通过上图展示的网络结构图可以看出，与以前基于BEV空间的跨模态蒸馏方法采用额外的预训练教师模型不同，我们提出的FSD-BEV算法模型在单独的一个模型当中完成了特征的对齐过程。同时考虑到蒸馏框架中的教师分支的性能在很大程度上取决于点云生成的硬标签的质量。因此，我们设计了两种点云强化 (Point Cloud Intensification，PCI) 策略来解决点云数据的稀疏性问题，即合并帧信息和为没有关联点的对象分配伪点。通过这种方式，点云产生的硬标签的稀疏性得到了很好的缓解，为特征合成提供了更好的指导。此外，我们也设计了一个多尺度前景增强 (Multi-Scale Foreground Enhancement，MSFE) 模块，通过预测出的椭圆高斯热力图提取和融合多尺度前景特征，从而提高整个框架的性能。

接下来我们将详细介绍每个关键技术创新点的实现细节

Foreground Self-Distillation

由于教师模型是基于激光雷达模态的感知算法，学生模型是基于视觉图像模态的感知算法，这就会使得教师模型和学生模型各自产生的BEV特征之间的分布差距给跨模态蒸馏任务带来挑战。此外，蒸馏算法的重点在于对教师和学生模型特征分布差异的情况下进行有效地迁移特征，但BEV空间中背景区域特征的模仿对学生模型精度的提升很微小，因此很自然的想到对前景目标映射到BEV空间上的特征进行蒸馏任务。

在我们设计的自蒸馏算法框架中，我们并没有像之前常见的蒸馏算法一样使用预训练好的教师模型。相反，在我们设计的自蒸馏方法当中，教师和学生模型共同参与了联合学习过程。具体而言，虽然教师和学生模型的BEV空间特征共享相同的上下文特征信息，但更准确的深度和语义信息有助于构建高性能的教师BEV空间特征，为学生的BEV空间特征提供持续的指导。此外，通过引入前景分割来生成仅包含前景信息的BEV空间特征，这放弃了对背景区域的无用模仿并避免了噪声干扰。前景分割还大大提高了教师分支的准确性，从而增强了蒸馏效率。该部分的整体思路如下图所示：