在自动驾驶系统当中,准确的车道线检测在感知任务当中扮演了非常重要的角色。目前,在一些比较复杂的城市道路场景当中,由于存在着道路结构不规则以及车道线排布复杂的路况,导致车道线感知算法模型很难准确识别可通行的车道区域。
早期,由于感知算法模型的感知能力还比较有限,在城市中的自动驾驶车辆通常都需要依赖高精地图(High-Definition,HDMap)来提供丰富和精确的道路信息,比如道路的拓扑结构,停止线,车道线曲率等相关路况信息。但由于高精地图的采集和制作成本非常高,同时地图的鲜度也很难得到保证。与高精地图在细丰富度节和资源要求方面形成鲜明对比,导航地图虽然精度较弱且元素信息也比较模糊,但是可以作为一种轻量级的语义导航方案来提供道路曲率和连通性的道路拓扑结构。
考虑到BEV感知算法可以为自动驾驶车辆提供对周围环境的紧凑而准确的信息表示,同时提供路径规划和预测所必需的自上而下的鸟瞰视角,目前已经被广泛应用于在线的车道线检测任务当中。虽然目前工业界和学术界都已经普遍认识到了BEV感知的重要性,但其感知范围仍被探索的比较有限。现有感知方法的一个常见感知范围大约是50米左右,受限的范围导致在较长距离下缺乏有意义的上下文理解。在需要全面了解周围环境的场景中,迫切需要扩大感知范围,特别是在高速或大曲率曲线上的远程规划中。较大的环境感知范围可以提高自动驾驶安全性能。
综合考虑远距离感知对于自动驾驶任务的重要程度以及导航地图可以带来的道路拓扑结构,本文提出结合了导航地图先验的视觉BEV分割方法BLOS-BEV,进而实现了200米范围的感知任务。大量实验表明,我们提出的方法在nuScenes和Argoverse数据集上的BEV分割任务中实现了SOTA的表现性能。

BLOS-BEV输出的BEV分割结果实现了超远距离感知
文章链接:https://arxiv.org/pdf/2407.08526
网络模型的整体架构&细节梳理
在详细介绍本文提出的BLOS-BEV算法模型之前,下图展示了我们提出的BLOS-BEV算法的整体网络结构。通过下图可以看出,BLOS-BEV包括四个主要组成部分,分别是BEV Backbone模块,SD Map Encoder模块,BEV Fusion模块以及BEV Decoder模块。该架构最终通过协同集成互补输入模态实现了增强的感知范围和规划预见性。

BLOS-BEV算法模型的整体网络架构图
BEV Backbone(BEV主干网络)

SD Map Encoder(导航地图编码器)
SD Map Encoder模块采用了卷积神经网络的架构模式,同时输入是以自车位置为中心的SD导航地图。在导航地图数据的选择上,我们采用了OpenStreetMap,OpenStreetMap是一个众包项目,提供免费且可编辑的世界地图,提供丰富的道路信息,该地图包含有关各种地理特征的丰富信息,例如道路、交通标志、建筑区域等。下图的(a)子图展示了OpenStreetMap的典型道路信息表示。

OpenStreetMap的原始地图以及栅格化后的结果

BEV Fusion Module(BEV融合模块)


探索的不同视觉BEV特征以及导航地图特征融合方式
BEV解码器和训练损失函数设计

实验结果&评价指标
nuScenes&Argoverse数据集上的实验结果分析
在实验部分中,我们分别在nuScenes和Argoverse数据集上来验证我们提出的BLOS-BEV算法模型的有效性。下表展示了我们提出的BLOS-BEV算法模型在nuScenes数据集上的结果对比情况。

在nuScenes数据集上的BEV分割结果对比情况
通过上表展示出来的结果可以看出,受益于视觉BEV特征以及导航地图特征融合的优势,在0~50米的范围内以及远距离的50~200米范围内,我们提出的算法模型要大幅领先其它SOTA的算法模型,充分证明了导航地图可以充分发挥远距离感知的重要性。值得注意的是,SD地图融合可将远距离的分割精度mIoU提高18.65%,在视线之外的距离处的mIoU精度下降最小。这是因为SD地图中丰富的几何先验为分割提供了上下文指导。我们的结果展示了融合SD地图在近距离和远距离上实现准确且稳健的BEV语义分割的有效性。
除此之外,我们为了更直观地比较不同算法模型的BEV分割结果,我们在下图中展示了nuScenes数据集中场景的分割比较结果。通过下图的可视化结果可以观察到,如果没有SD导航地图的先验信息,BEV的分割效果会随着距离的增加而迅速恶化。相比之下,受益于地图先验信息,我们提出的BLOS-BEV算法模型即使在远距离预测中也能保持稳健的分割性能。

在nuScenes数据集上BLOS-BEV与其他方法的可视化结果比较
下图的可视化结果也很明显的展示了我们算法在其他场景下的泛化结果,包括曲率弯曲较大的场景。在这种情况下,尤其受益于我们提出的BLOS-BEV算法模型的扩展可见性,通过为自动驾驶系统提供更长的时间和空间来主动做出反应,大大提高了安全性。

BLOS-BEV在曲率弯曲较大场景下的表现性能可视化
为了更好的验证我们提出算法模型的泛化性,我们也在Argoverse数据集上进行了相关实验结果的对比,相关实验结果总结在下表中。

提出的BLOS-BEV算法模型在Argoverse数据集上的表现性能
上表展示出了不同方法在不同范围内的BEV空间语义分割结果。很明显可以看出,融合了SD导航地图和BEV视觉特征的算法模型,相比于LSS基线模型有显著的改进。在融合方法中,交叉注意融合机制在所有范围内都取得了最佳的表现性能。此外,对于长距离(150 ~ 200m的感知范围),SD导航地图的交叉注意融合方案将mIoU精度从34.8%提升到了60.8%。表格中的实验结果还展示了BLOS-BEV算法模型在不同范围内、不同类别的整体分割结果。这些结果表明,我们的方法在各种数据集上都实现了出色的泛化性能,凸显了其卓越的适应性和有效性。
消融对比实验分析
我们分别探索了基于元素相加、通道拼接以及交叉注意力三种特征融合方式,相关的实验结果汇总在下表当中。

不同的融合方法在nuScenes数据集上的性能指标汇总
通过实验结果可以看出,所有的特征融合技术方案都比没有SD导航地图的方法取得了显著的进步,从而证明了融合SD导航地图的优势。此外,表格中的相关实验结果表明,仅使用SD导航地图的特征可以预测准确的路面,但在预测需要更精细几何形状的道路边界时,其性能有限。我们认为,SD导航地图可以提供强大的道路拓扑结构先验,提供了对传感器感知至关重要的粗粒度结构信息。通过融合BEV视觉特征和SD导航地图特征分支,我们的网络实现了准确的环境感知,充分利用了两者的优势。
结论
在本文中,我们提出了一个SD导航地图与视觉感知相融合的BEV分割算法模型BLOS-BEV,该算法模型可以实现200米的超远距离感知结果。提出的算法模型利用导航地图包含的地理空间先验信息,实现了更具预见性和更安全的轨迹规划。我们在nuScenes和Argoverse数据集上进行了大量的实验,相关实验结果可以证明,我们提出的BLOS-BEV算法模型在近距离和远距离都实现了SOTA的 BEV分割表现性能。
参考
[1] BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight

发表回复