2024-10-21 同济&百度新作MGMapNet:在线建图也要对齐颗粒度!

感知和理解道路地图元素是在自动驾驶业务中十分重要。高清(HD)地图提供了道路元素的类别和几何信息,使自动驾驶车辆能够保持车道位置、预测交叉口并规划最佳路线以降低潜在风险。然而,构建HD地图需要大量的人力来注释和更新,这限制了自动驾驶技术在大范围的可扩展性。

论文链接:https://arxiv.org/pdf/2410.07733v1

所以,最近有很多研究研究,用基于学习的方法从车载传感器中在线构建HD地图。这些方法根据表征方式的不同,主要可分为两类:基于光栅地图的表示方法(e.g., BEVFormer)和基于矢量地图的表示方法(e.g., MapTR系列)。基于光栅地图的方法通常需要复杂的后处理以满足下游模块的需求,这个过程可能导致次优结果,毕竟这些结果并非完全端到端优化。因此,越来越多人关注使用矢量表示的端到端地图构建方法。

该类方法通常采用鸟瞰图(BEV)空间进行端到端感知,有效地整合了各种传感器信息。较为先进的方法通常采用类似DETR的架构:编码器最初将多传感器信息提取到BEV表示,而解码器随后通过查询解码每个道路元素的类别和几何信息。这些方法实现了输出地图元素的端到端矢量化表示,省去了光栅地图表示中涉及的复杂后处理步骤的需求。

SOTA方法使用点级查询或实例级查询来生成地图元素。点级查询擅长描述道路元素的几何位置。例如,在MapTR中,一种排列等价的点表达准确地表示了地图元素的位置信息,确保了稳定的训练过程。MapTRv2通过引入one2many训练策略和解耦的自注意力操作进一步增强了感知精度。然而,这些方法可能缺乏对地图元素的整体描述,导致在表示车道关系方面的不足。例如,MapTRv2可能会错过远距离和合并场景中的车道线,如图1中紫色椭圆区域所示。

虽然实例级查询擅长捕获道路元素的整体类别信息,但它们可能难以准确表示几何细节,尤其是对于不规则或细长的地图元素。例如,在StreamMapNet中,提出了一种多点注意力机制来捕获道路元素的整体信息,允许在保持计算效率的同时进行更长的注意力范围。然而,这种方法可能在准确感知不规则或细长元素的几何形状方面遇到困难,导致局部扰动。图1中的绿色框突出了从实例级查询获得的不准确点坐标的问题,其中地图元素虽然被检测到,但其位置精度受到影响。

为了同时结合细粒度的局部位置和粗粒度的全局分类信息,作者提出了一个简单的框架,称为MGMapNet,它通过多粒度查询来表示地图元素。在每个解码器层中,通过使用多粒度聚合器查询多尺度鸟瞰图(BEV)特征,同时计算点级查询和实例级查询。随后,设计了点实例交互模块,包括点对点注意力和点对实例注意力,以增强固有关系。最终,使用点粒度查询来定位点坐标,而实例粒度查询用于确定地图元素的类别。

作者的主要贡献可以总结如下:

  • 作者提出了一种鲁棒的多粒度表示,通过在一个框架中使用粗粒度实例级和细粒度点级查询,实现了矢量高清地图的端到端构建。
  • 多粒度聚合器结合点实例交互,促进了点级和实例级查询之间的有效交互,有效地交换了类别和几何信息。
  • 作者将几种策略优化纳入训练中,使其提出的MGMapNet在nuScenes和Argoverse2数据集上都实现了最先进的(SOTA)单帧性能。

相关工作

在线高清地图构建

上面笔者也提到,目前,高清地图构建可以分为两种类型:基于光栅地图的方法和基于矢量地图的方法。光栅方法,如HDMapNet,使用BEV特征进行语义分割,然后通过后处理步骤获得矢量化地图实例。同样,BEVLaneDet输出每个网格的置信度分数、聚类嵌入、y轴偏移和平均高度。虽然光栅地图可以提供详细的道路信息,但后处理的需求限制了它们的应用。随着基于矢量的DETR类端到端方法的出现,消除了后处理的需求。VectorMapNet是第一个利用变换器的端到端地图重建模型。MapTR和MapTRv2引入了一种新颖且统一的地图元素建模方法,解决了歧义并确保了稳定的学习过程。PivotNet采用统一的、基于支点的表示方法,并被构建为直接的集合预测范式。

车道检测

车道检测可以被视为高清地图构建的一个子任务,专注于在道路场景中检测车道元素。当前的一些方法主要从单一透视图(PV)图像中进行车道检测,大多数车道检测数据集仅提供单一视角的注释。LaneATT提出了一种新颖的基于锚点的注意力机制,该机制聚合了全局信息。与车道检测不同,矢量化高清地图构建涉及车辆感知范围内更复杂的地图元素,包括车道标记、路缘和人行道。

论文方法

总体架构

MGMapNet的总体网络架构如图2(a)所示。与其他基于DETR的端到端高清地图构建模型类似,MGMapNet包括一个BEV特征编码器,负责从透视图图像中提取多尺度BEV特征,以及一个变换器解码器,它堆叠了多层多粒度注意力来生成地图元素的预测。每一层的预测都包含了感知范围内的类别和几何信息。

BEV特征编码器

解码器

解码器有 L层。每一层由自注意力、多粒度注意力和前馈网络组成,如图2(b)所示。多粒度注意力由两个组件组成:多粒度聚合器和点实例交互。实例级查询通过可学习参数初始化,这些参数通过在BEV特征上查询进行更新,点查询是通过聚合BEV特征动态生成的。之后,采用点实例交互来执行局部几何信息和全局类别信息之间的相互交互。

多粒度注意力

如图2(b)所示,多粒度注意力包含两个主要组件:多粒度聚合器(Multi-Granularity Aggregator)和点实例交互(Point Instance Interaction)。

多粒度聚合器

点实例交互

P2P注意力

P2I注意力

输出

最终,点粒度查询用于通过MLP作为回归头来预测点位置,而实例粒度查询用于使用另一个MLP来预测地图元素的类别。总之,通过利用多粒度聚合器和点实例交互,多粒度查询被生成和更新。同时,每个地图元素的几何形状和类别可以被有效地感知。

实验结果

实验设置

实验在 nuScenes 和 Argoverse2 做训练和测试

评估指标

与MapTR一致,作者采用了基于Chamfer距离的广泛接受的均值平均精度(mAP)指标,这是高清地图构建任务中常用的度量。评估阈值设置为0.5m、1.0m和1.5m。

辅助损失

实现细节

与SOTA的比较

在nuScenes上的结果

矢量化高清地图构建的默认评估指标是Chamfer Distance Average Precision (AP)。表1展示了在nuScenes验证数据集上的结果,使用多视图RGB图像作为输入。与最先进的方法MapTRv2相比,作者的MGMapNet达到了66.8的mAP,超过了它5.3 mAP,训练周期为24个周期。经过延长的训练周期110个周期后,MGMapNet实现了73.6 mAP,仍然显著高于MapTRv2的68.7 mAP和MapQR的72.6 mAP。

最新的模型还使用光栅化结果,并采用基于IoU的平均精度(AP)来评估重建性能。如图2所示。作者评估了MGMapNet,其实现了46.9的mAP,超过了MapVR和MGMap在基于IoU的AP方面的表现。

实验结果证实了所提出的多粒度表示,通过模拟局部点信息和全局实例信息,显著提高了光栅化和矢量化评估指标的预测性能。

定性结果如图3所示。作者选择了三个复杂场景:白天车辆遮挡、夜间低光照条件和夜间低光照条件下的遮挡。在第一个案例中,MGMapNet展示了比StreamMapNet更精确的坐标预测,并与MapTRv2相比保留了所有道路元素。在第二个夜间低光照条件的案例中,MapTRv2由于缺乏实例级感知,难以预测车辆右侧的分隔线。而StreamMapNet利用实例级查询识别了分隔线,但其整体实例定位精度仍然不足。相比之下,只有MGMapNet在这些具有挑战性的条件中准确且完整地检测到了边界。第三个夜间密集车辆交通和遮挡的案例突出了StreamMapNet的检测性能不佳。MapTRv2遇到了两个主要问题:错误地将车辆右前方的人行道定位为边界,并将后面的分隔线误分类为边界,表明其在实例级感知方面的局限性。相反,MGMapNet表现出显著的鲁棒性,即使在低光照条件和大量夜间遮挡下,也能准确预测类别和位置。

定性结果表明,所提出的MGMapNet有效地弥补了实例级和点级查询的不足,在复杂条件下的高清地图构建中实现了更高的精度。

在Argoverse2上的结果

在更复杂的Argoverse2数据集上,MGMapNet的性能仍然具有竞争力。表3展示了作者在Argoverse2验证数据集上的6个周期的结果。Argoverse2数据集提供了两种配置的点表示:2D和3D点坐标。作者在两种配置上进行实验,分别在6个周期内实现了71.2和69.1 mAP的mAP分数,与MapTRv2相比分别提高了3.8和4.4 mAP。与最新的HIMap相比,它在2D和3D配置中分别实现了69.6和68.4 mAP,MGMapNet仍然超过了1.6和0.7 mAP。其他方法的结果来源于原论文,实验结果证明了MGMapNet的竞争力。

效率比较

作者对几个开源模型进行了全面的效率分析,主要关注每秒帧数(FPS)和模型参数,以证明模型的有效性。如表1的最后两列所示,作者的模型实现了11.7的FPS,与最新模型MapQR和MGMap相当。它略低于MapTRv2,但优于PivotNet等方法。模型参数为70.1 MB,低于MapQR的120.3 MB,但略高于MGMap的55.9 MB。

消融研究

作者在nuScenes验证数据集上进行了消融实验,训练设置为24个周期,检验多粒度注意力的有效性,以及策略优化对模型性能的增量影响。MGMapNet中每个组件的影响在表4中展示。

多粒度注意力

表4比较了MPA和MGA,以及点实例交互。作者最初使用MPA作为基础模块,并结合策略优化,实现了59.6的mAP。通过用MGA替换MPA并引入更合适的查询,它捕获了细粒度点和粗粒度实例特征。这种增强促进了更细腻和精确的感知,最终实现了66.8 mAP,并领先7.2 mAP。此外,仅使用多粒度聚合器时,mAP为62.7,表明多粒度表示比MPA的59.6提高了3.1 mAP。进一步地,当P2P和P2I注意力在点实例交互中引入时,mAP分别增加了2.1和2.3,达到64.8和65.0。同时应用这些改进,模型的性能提高到66.8 mAP,提高了4.1 mAP。这突出了两种注意力模块在增强两种粒度之间的内在关系和提高模型性能方面的重要性。

策略优化

如表5所示,作者还研究了MGMapNet中使用的其他策略的有效性。实验(a)表明,多粒度注意力作为MPA的替代品,实现了63.6 mAP,与MPA的55.9 mAP相比,mAP增加了7.7。同时,实验(b)揭示了包含辅助损失可以使mAP提高0.8。实验(c)、(d)和(e)说明了使用多尺度方法、添加参考点位置编码和增加查询数量的有效性,分别获得了0.6、1.2和0.6 mAP的增益。通过这些策略的优化,作者的MGMapNet实现了66.8 mAP,代表了最先进的性能。

总结

作者提出了一种多粒度表示方法,通过在同一个框架中使用粗粒度实例级和细粒度点级查询,实现了矢量化高清地图的端到端构建。通过设计的多粒度注意力,有效地交换了类别和几何信息。作者提出的MGMapNet在nuScenes和Argoverse2数据集上都实现了SOTA的单帧性能。然而,作者的主要关注点在于提高高清地图构建的质量。解决实时性能是未来优化的一个有前景的方向。此外,探索一些作为先验的时间方法也是一个值得考虑的方向。多粒度注意力的机制是通用的,值得尝试确定其在拓扑预测或其他自动驾驶任务中的有效性。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论