2024-10-18 阿里 & 西交提出 PriorDrive:自动驾驶建图的统一向量先验编码

高分辨率地图(HD maps)对于自主车辆的精确定位和决策至关重要,但其创建和维护面临着严重的成本和时效挑战。利用车载传感器在线构建HD地图已成为一种有前景的解决方案;

然而,这种方法可能会受到遮挡和恶劣天气等导致的数据不完整的影响。本文提出了一种名为_PriorDrive_的框架,通过利用先验地图的力量来克服这些限制,显著提高在线HD地图构建的鲁棒性和准确性。

作者的方法将多种先验地图(如OpenStreetMap的标准定义地图(SD maps)、供应商的过时HD地图以及基于历史车辆数据的本地构建地图)集成在一起。为了有效地将这种先验信息编码到在线地图模型中,作者 introduced 一种混合的先验表示(HPQuery),它将各种地图元素的表示标准化。

PriorDrive的核心是统一向量编码器(UVE),它采用双重编码机制处理向量数据。向量编码器捕获了细粒度的局部特征,而向量编码器集成了全局上下文。此外,作者还提出了一种分段和点段 Level 的预训练策略,使得UVE可以学习向量数据的先验分布,从而提高编码器的泛化能力和性能。

通过对nuscenes数据集的广泛测试,作者证明了PriorDrive与各种在线地图模型高度兼容,并且显著提高了地图预测能力。

通过PriorDrive框架将先验地图进行集成,为单感知数据面临的挑战提供了一种鲁棒解决方案,为更可靠的自主车辆导航铺平了道路。

Introduction

高清地图(HD maps)对于自动驾驶车辆的精准导航和决策至关重要,它们提供了详细的矢量化表示,如车道分界线、人行横道和道路边界等[14, 15]。尽管它们具有重要意义,但创建和维护HD地图的传统方法通常成本高昂且耗时费力。这些方法可能导致无法跟上快速变化的城乡环境的过时地图。因此,对在线高清地图构建的兴趣日益增加,地图可以通过车载传感器,如全景红绿色摄像头和激光点云以实时方式生成。虽然这种方法降低了成本,但也带来了新的挑战,特别是由于环境遮挡或恶劣天气条件造成的不完整和错误的数据。

在这篇论文中,作者提出了PriorDrive,一种专为克服这些挑战而设计的创新框架,该框架利用先验地图。具体而言,PriorDrive包括三种先验地图:标准定义地图(SD maps)、现有但过时的HD地图和在线历史预测地图,如图1所示。SD地图提供了维护道路 Level 连通性的 essential 长向中心线骨架。

尽管现有HD地图(HD map-EX)具有很高的准确性,但由于更新不频繁,它们通常无法反映现有的道路条件。然而,这些地图对于HD地图的构建提供了宝贵的先验信息。此外,历史预测地图(常常被忽视)可以通过反映先前的感知观测洞察当前的道路状况。

随着车辆在相同的地点多次行驶,在各种条件下积累的信息可以通过迭代优化提高当前局部地图的质量。

近年来,一些研究试图利用先验地图补充感知数据,但它们面临着许多限制。例如,NMP [13]依赖于一个无法利用现有离线地图的神经先验模型,只能通过模型训练进行更新,导致在新环境中迁移能力较差。P-MapNet [17]通过将向量地图转换为栅格表示,如将向量地图转换为栅格表示,从而将其纳入 Pipeline ,该方法是损失的且冗余的,缺乏捕捉向量化实例级信息并有效表示地图元素类型和方向所需的详细信息。

MapEX [16],另一方面,专注于现有HD地图,并通过引入人工偏移和删除地图元素来模拟过时的地图,这种方法可能导致泄露真实数据,并无法准确地表示模拟和实际过时HD地图之间的差异。由于这些实际过时的地图的更新频率较低,它们在反映道路交通结构实时变化方面存在问题,使得它们在当前导航需求方面不可靠。

鉴于各种地图通常以向量形式存储, due to their low redundancy 和 universal applicability,因此开发一个强大的向量编码模型至关重要。然而,由于向量数据的变长、稀疏性和离散性,设计此类模型具有挑战性。为了通过将各种矢量先验地图集成到各种映射模型中并增强当前感知结果,作者提出了一种统一向量编码器(UVE)。

UVE可以编码各种向量数据类型,并且作者引入了预训练范式,允许模型通过在段和点 Level 添加高斯噪声或 Mask 来学习向量数据的先验分布,并重构整个向量地图。在nuScenes数据集上的实验表明,PriorDrive可以无缝应用于各种在线映射模型,从而显著提高性能,包括为HDMapNet带来+2.2 mIoU和为MapTRv2带来+4.2 mAP。

总之,作者的贡献如下:

引入了一个统一向量编码器(UVE)通过双编码机制:

向量编码器 capture fine local features,而向量间的编码器 fuse global context information。

作者还提出了一种用于向量数据的预训练范式,该范式通过在段和点 Level 添加高斯噪声或 Mask 并向量地图添加来学习向量数据的先验分布,并重构整个向量地图。作者还提出了一种混合先验表示(HPQuery),以表示所有元素和一个PriorDrive框架,其中包含向量先验地图,以解决单感知局限性。

作者在nuScenes数据集上的综合评估表明,PriorDrive显著增强了在线映射模型的性能。

Related Work

Online Vectorized HD Map Construction

近年来,高分辨率地图(HD map)构建技术已经从基于SLAM(同步定位与建图)技术的传统离线方法转变到更多的动态方法,这些方法利用车载传感器进行在线HD地图生成 。这种转变不仅降低了成本,还确保了地图反映最新的路面状况。一些方法 [13, 16] 将HD地图构建视为一个分割任务,预测需要复杂后处理才能矢化的像素级栅格地图。为了应对这一限制,近年来的一项工作专注于开发端到端框架进行矢量化地图学习。

VectorMapNet [13] 引入了一个从粗粒度到细粒度的两阶段网络,利用关键点表示。MapTR [19] 通过使用类似于DETR(Deep Example Aggregation Test)的[19]一阶段网络将这一概念提升到一个新的水平。

HIMap [17] 提出了一种混合表示学习 Pipeline ,以捕捉点 Level 和元素 Level 的信息。MapQR [13] 引入了一种散列并收集 Query 机制,用于精确检测内容与位置信息,而MGMap [13] 则使用 Mask 引导特征,以增强车道形状表示的细节。

然而,这些方法仅依赖于车载传感器提供的单一来源感知数据,这在遮挡或恶劣天气条件下限制了其有效性。

Online Mapping Based on Prior Maps

近期研究发现,利用先验图增强在线地图模型的性能是一个研究方向。P-MapNet [12] 将标准定义图(SD图)编码为额外条件分支,并使用 Mask 自编码器捕获高分辨率(HD)图的先验分布。NMP [13] 引入了一个全球神经图先验,可以自我更新,从而提高局部图推理性能。

MapEX [23] 将现有地图分为三类,并优化基于 Query 的地图估计模型匹配算法。尽管这些进展已经存在,但许多研究忽视了在线历史预测图作为先验信息来源的潜力。作者的工作通过利用各种现有先验图以其原始向量形式进行增强,来提高当前感知数据的性能。

Pretrained Methods Based on Mask Modeling

在自然语言处理和计算机视觉领域, Mask 预训练已被证明是一种有效的自监督表示学习策略。在自然语言处理中,像BERT [14, 15, 16]这样的模型使用 Mask 语言建模来预测双向文本上下文中随机 Mask 的标记。

同样地,像MAE [13, 14, 15]这样的方法会 Mask 输入图像的随机区域,然后根据剩余未 Mask 的区域进行重建。与这些方法不同,它们主要针对文本和图像数据,作者提出了一种专门为向量数据设计的预训练范式。作者的方法旨在学习向量表示的先前分布,为基于向量化的地图数据预训练提供了一条新的途径。

Formulation of Online Mapping

Extraction of Prior Map Features.

Online Mapping Based on Prior Maps.

作者将详细说明这些特征融合方法的有效性在实验部分。

Architecture of UVE

受到BERT在文本相关任务上的启发,作者提出一种统一的向量编码器(UVE),通过类比向量点和向量映射元素为词向量和句子(参见图3)。并且,作者提供了一种预训练策略来提高UVE的编码和降噪能力。

Pre-training UVE: Position Modeling

由于在线映射模型的推理能力有限,导致历史预测地图存在错误。因此,作者利用位置建模预训练紫外线(UVE)来提高其编码和噪声降低能力。

具体而言,有两种方法:随机噪声和 Mask (见图4)。

噪声生成器。噪声主要分为段级和点级。在点级噪声中,随机噪声添加到整个图的5%的向量点上。

对于段级噪声,在随机选择图元素的一小部分(占10%)后,将所有向量点中的所有随机噪声添加到该小段的向量点上。

Experiments

Experimental Settings

预训练的影响。为了有效地捕获向量图的先验信息,作者采用不同的策略预训练UVE,如表3所示。当作者直接将原始向量图输入给UVE,而没有任何噪声时,UVE收敛到最小误差为0.09米。然而,任务的简单性可能限制了模型完全学习先验分布的能力,导致仅提高了0.3 mAP。作者在20%的地图元素中随机添加了3米标准差的板块级高斯噪声。UVE在重构整个地图的平均欧几里得距离误差为0.46米。然而,这种方法导致了mAP的轻微降低,可能因为UVE尚未完全收敛。

接下来,作者对10%的地图元素随机应用了1米板块级噪声,结果导致UVE和模型无预训练时的误差减小到0.15米,并取得了0.2 mAP的改进。在此基础上,作者对5%的向量点进行了1米点级噪声的引入,尽管这将UVE的误差提高至0.18米,但实现了0.6的mAP显著改进。

这表明,结合了板块级和点级噪声的预训练策略更有效地学习了向量图的先验信息。作者还尝试了用 Mask 取代噪声,这增加了UVE的误差至0.43米,但仍实现了0.4 mAP的改进。

这表明,尽管基于 Mask 的困难任务可以有效地预训练UVE,但它们的影响可能受到预训练数据量的限制。

表2:在HDMapNet和SD地图先验上的UVE结构的消融实验。

先验地图数量的影响。作者进行了一次消融实验,评估了改变预先地图数量对模型性能的影响(见表4)。结果表明,使用单一先验地图导致了0.9 mAP的改进,证明了其在增强现有感知上的有效性。”

不同先验地图搜索范围的影响。作者在表5中进行了先验地图搜索范围影响的消融实验。结果表明,增加搜索范围会导致改进的略微降低。

不同的方法集成先验图。为了评估作者方法的可变性,作者在表6中测试了各种集成方法。与MapTRv2相比,替换和添加的HPQuery方法分别提高了2.1和1.6 mAP,但这些方法可能会影响原始 Query 的性能。相比之下, ConCat 方法实现了4.2 mAP的显著改进。这种方法有效保留了原始 Query 的整体完整性,同时利用了UVE学习到的实例级和点级先验特征,使其成为最有效的集成方法。

推理速度,内存,模型大小,和详细运行时间。表7 compares作者的方法与MapTRv2在以上方面。结果表明,作者的方法与MapTRv2相比,保持了类似的FPS,GPU内存使用量和参数数量,同时实现了4.2 mAP的改进。此外,作者提供了每个组件的详细运行时间。作者提出的UVE占总流水线运行时间的15.3%,其中大部分推理时间用于2D Backbone(50.2%),突出了作者在各种应用场景下方法的有效性和实用性。

总结

在本论文中,作者提出了PriorDrive,这是一个新颖的框架,可以有效地利用各种类型的先验图来增强自动驾驶车辆的在线高精度地图构建的准确性和鲁棒性。

作者方法的核心是UVE,作者设计UVE是为了有效地编码多样性的向量数据。

通过全面的实验验证,作者证明了UVE,结合作者提出的预训练策略,显著提高了最新一代地图构建模型的性能。

作者的方法不仅解决了实时在线高精度地图构建在动态复杂环境中的挑战,而且提供了可扩展的解决方案,随着时间的推移持续提高地图准确性。使用历史预测地图作为先验,会导致越来越精确的地图输出,从而确保自动驾驶导航时最新、最完整的路况信息可用。

参考

[1].Driving with Prior Maps:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论