2024-03-28 BEVCar：双任务！用于BEV地图和目标分割的RV融合方案

2024-03-28

–

admin

–

从鸟瞰图（BEV）的角度进行语义场景分割在促进移动机器人的规划和决策方面发挥着至关重要的作用。尽管最近的纯视觉方法在性能上取得了显著进步，但它们在下雨或夜间等不利的照明条件下往往会遇到困难。虽然有源传感器为这一挑战提供了解决方案，但激光雷达高昂的成本仍然是一个限制因素。

将camera数据与Radar融合是一种更廉价的替代方案，但在之前的研究中受到的关注较少。在这项工作中，我们的目标是通过引入BEVCar来推进这一有前景的途径，BEVCar是一种用于BEV目标和地图联合分割的新方法。核心新颖性在于首先学习原始雷达数据的基于点的编码，然后利用该编码来有效地初始化将图像特征提升到BEV空间中。在nuScenes数据集上进行了大量实验，证明了BEVCar的性能优于当前的技术水平。此外还表明，结合雷达信息显著增强了在具有挑战性的环境条件下的鲁棒性，并提高了远距离物体的分割性能！

链接：http://bevcar.cs.uni-freiburg.de

本文主要贡献：

1）介绍了一种新的BEVCar框架，用于从相机和雷达数据中分割BEV地图和目标。

2）提出了一种新的基于注意力的图像提升方案，该方案利用稀疏雷达点进行查询初始化。

3）基于学习的雷达编码优于原始元数据的使用。

4）在具有挑战性的环境条件下将BEVCar与以前的基线进行了广泛的比较，并展示了利用雷达测量的优势。

5）公开了nuScenes上使用的白天/晚上/下雨的分割

网络结构

下图为提出的用于BEV地图和目标分割的相机-雷达融合的BEVCar方法。使用带有可学习适配器的冻结DINOv2对环视图图像进行编码。受基于激光雷达的感知的启发，采用了可学习的雷达编码，而不是处理原始元数据。然后，通过可变形注意力将图像特征提升到BEV空间，包括新的radar-driven的查询初始化方案。最后，以基于注意力的方式将提升的图像表示与学习的雷达特征融合，并对车辆和地图类别执行多类BEV分割。

受激光雷达处理的启发，以逐点方式对具有全连接层（FCN）的雷达数据进行编码，并使用最大池化来组合体素内的点特征。随后，采用基于CNN的高度压缩来获得BEV空间中的整体雷达特征。

实验对比

BEVCar是在nuscenes上进行评估，论文进一步将验证场景分为白天（4449个样本）、下雨（968个样本）和夜晚（602个样本）场景，并将这一划分包含在代码中。对于目标分割，组合“车辆”类别的所有子类。对于地图分割，考虑所有可用的类别，即“可行驶区域”、“停车场区域”、”人行横道“、”人行道“、”停车线“、”道路分隔带“和”车道分隔带“。文中报告了先前工作中已经解决的那些类的IoU度量，并通过“映射”引用了所有映射类的平均IoU。为了将BEVCar与之前预测较少类别的基线进行比较，将“车辆”和“可驾驶面积”的平均值报告为“mIoU”！

在nuScenes验证分割上比较了BEVCar与纯相机（C）和相机雷达（C+R）BEV分割方法。Simple BEV++是一种定制的Simple BEV，没有实例感知训练，但具有与我们的方法相同的雷达元数据和地图分割头。为了将BEVCar与这些方法进行比较，将“车辆”和“可驾驶区域”类别的平均值提供为“mIoU。