2024-08-22 MaskBEV:面向BEV检测和地图分割的统一框架

论文链接:https://arxiv.org/pdf/2408.09122

摘要

本文介绍了MaskBEV:面向BEV检测和地图分割的统一框架。准确且鲁棒的多模态多任务感知对于现代自动驾驶系统是至关重要的。然而,目前多模态感知研究遵循为特定感知任务设计的独立范式,导致任务之间缺乏互补学习,并且由于联合训练造成多任务学习(MTL)的性能降低。本文提出了MaskBEV,这是一种基于掩码注意力的MTL范式,其统一了3D目标检测和鸟瞰图(BEV)分割。MaskBEV引入了任务无关的Transformer解码器来处理这些不同的任务,使MTL能够在统一的解码器中完成,而不需要额外设计特定的任务头。为了充分利用BEV分割和BEV空间中3D目标检测任务之间的互补信息,本文提出了空间调制和场景级上下文聚合策略。这些策略考虑了BEV分割和3D检测之间的内在依赖关系,这自然提升了MTL性能。在nuScenes数据集上的大量实验表明,与先前最先进的MTL方法相比,MaskBEV在3D目标检测方面实现了1.3NDS的改进,在BEV分割方面实现了2.7mIoU的提升,同时还展现出略微领先的推理速度。

主要贡献

本文的主要贡献总结如下:

1)本文提出了MaskBEV,这是首个用于3D目标检测和BEV地图分割任务的统一感知框架。本文所提出的基于掩码注意力的多任务解码器可以实现高性能的联合训练;

2)本文提出了一种空间调制策略来辅助获取多任务可靠的掩码,并且提出了一种新的场景级特征聚合模块来获取多粒度甚至场景级BEV上下文特征;

3)本文的MaskBEV在nuScenes数据集的多任务学习(3D目标检测和BEV地图分割)方面实现了最先进的性能。本文还提供了多个多模态特征编码器网络和传感器鲁棒性分析,用于全面评估MaskBEV。

论文图片和表格

总结

本文提出了一种统一且通用的多模态多任务学习(MTL)范式。MaskBEV基于共享Transformer解码器中的鸟瞰图(BEV)表示来完成多任务3D感知。通过充分利用BEV地图分割和3D目标检测任务之间的固有依赖关系,MaskBEV缓解了当前MTL的性能下降问题。MaskBEV打破了为特定感知任务设计特定解码范式的常见做法。MaskBEV通过多种强基线方法在MTL应用中实现了性能改进和推理速度的提升。本文相信,MaskBEV可以为促进更高效、更通用的MTL系统的发展提供坚实的基础。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论