2024-07-02 港中文再创SOTA!DV-3DLane:多模态端到端车道检测新框架( ICLR’24)

近年来,自动驾驶感知算法取得了非常显著的成绩。感知模块作为自动驾驶系统用于观察周围环境最为重要的途径之一,已经吸引了来自工业界和学术界的广泛关注。在感知模块当中,3D车道线的检测是其中非常关键的任务之一,是确保安全可靠导航的关键要素。由于3D车道线检测需要识别环境中车道线边界的3D空间位置,可以为路径规划和车辆控制等任务提供重要数据。

当前主流的3D车道线检测任务主要是采用视觉图像作为输入。其中一种典型的代表即单目的解决方案。这类单目的解决方案以单张彩色图像作为输入,利用IPM变换将二维的图像特征投影到BEV空间中。但由于IPM是基于平坦假设理论,所以基于此类的方法在遇到非平坦路面时会出现匹配错位的问题 。此外,由于以视觉为输入数据的车道线检测算法在遇到恶劣的天气和光照条件下,不可避免的会出现感知现实世界驾驶场景的复杂性和困难性。

与采集图像数据的相机传感器相比,激光雷达传感器由于采集物体的点云数据信息,在空间定位和3D结构感知方面表现的更加出色,补充了相机传感器缺少的深度等信息,并且由于硬件的先进性而得到了工业界和学术界的广泛青睐。此外,最近在3D目标检测任务开展的一系列工作已经证明了激光雷达传感器和多模态融合在自动驾驶感知任务中展现出了广泛的发展前景。

考虑到采集到的图像数据中包含丰富的语义信息,以及BEV空间表示可以提供准确的空间位置信息,我们利用多模态融合的方法来提高3D车道线的检测性能。具体而言,我们同时参考来自PV空间和BEV空间的特征表达结果,进而提高模型的学习表示,提出了一种新颖的端到端多模态3D车道线检测框架,称之为DV-3DLane算法模型。提出的算法模型在OpenLane数据集上实现了SOTA的检测性能,F1分数提升了11.2%,错误率降低了53.5%

提出的DV-Lane算法模型与其它算法模型的精度和推理耗时对比

论文链接:https://arxiv.org/pdf/2406.16072

网络模型的整体架构&细节梳理

在详细介绍本文提出的基于多模态的端到端3D车道线检测算法模型DV-3DLane之前,下图展示了我们提出的DV-3DLane算法的整体网络结构。

DV-3DLane算法模型的整体网络结构图

通过上述的网络结构可以看出,我们为了实现保持PV空间和BEV空间的双视角空间的特征表示,我们采用了由PV分支和BEV分支组成的对称主干网络分别用于提取PV空间和BEV空间的特征信息。此外,为了充分利用图像特征信息与点云特征信息各自的优势可以在PV和BEV空间进行充分的学习,我们设计了一种双向特征融合策略(Bidirectional Feature Fusion)。然后,为了有效地利用保留的双视图特征进行基于查询的检测,我们设计了统一查询生成器(Unified Query Generator)。此外,为了实现双视角查询过程的统一,我们提出了一种以车道线为中心的聚合技术。同时,我们使用了Transformer解码器将来自两个视角空间的特征集成到统一的查询中。而且,为了在不同的视角空间中有效聚合特征,我们引入了一种3D双视角可变形注意力机制(3D Dual-View Deformable Attention),将对应的参考点投影到PV和BEV两类视图平面上,从而在每个相应视图空间中产生2D采样点,用于完成在各类视图空间上的特征采样。

接下来我们将详细介绍上述提到的各类关键模块的实现细节

双向特征融合模块(Bidirection Feature Fusion)

考虑到2D图像当中包含有丰富的语义信息以及点云数据中包含丰富的几何结构信息,代替将不同视角的特征信息全部融合到单独的一个视角空间中,我们同时保留了PV和BEV空间中的特征信息,同时为每个视角空间合并多模态的特征信息。具体而言,我们采用了PV和BEV双分支来提取每个视图的特征,然后在对称分支中进行双向的特征融合用于增强每个视角空间的多模态特征,其处理流程如下图所示。

双向特征融合模块实现流程图

双向特征融合策略的逻辑流程图

一对一匹配和车道中心聚类流程图

3D双视角可变形注意力(3D Dual-View Deformable Attention)

除了信息查询生成之外,特征聚合在提出的DV-3DLane算法模型中也发挥着至关重要的作用。我们采用稀疏查询从不同视角对特征进行采样,而不是将密集采样网格或其提升柱上的点投影到PV平面上进行特征采样,其算法流程如下图所示。

3D双视角可变形注意力与其它算法模型的对比情况

具体而言,我们提出的3D双视角可变形注意力的算法流程如下所示

3D双视角可变形注意力的算法流程伪代码

我们利用3D空间的固有属性,通过使用查询预测3D参考点及其3D偏移量,形成3D的可变形点。然后将这些3D可变形点投影到每个空间中,建立跨空间的一致特征采样策略。

实验结果&评价指标

定量分析部分

为了验证我们提出的算法模型DV-3DLane对于3D车道线检测任务的效果,我们在OpenLane数据集上进行了算法模型的实验对比,相关的实验结果如下表所示。

不同算法模型在OpenLane数据集上的性能表现

统一查询生成器的消融对比实验汇总

此外,我们也评估了3D双视角可变形注意力模块的表现性能,实验结果如下表所示。

3D双视角可变形注意力模块消融对比实验汇总

通过结果可以看出,我们提出的方法优于要优于DeepInteration算法模型,F1分数提高了2.0%。此外,与FUTR3D中提出的模态无关方法相比,我们的方法实现了0.5%的改进,从而进一步强调了在不同空间中变形注意力中一致采样位置的重要性

定性分析部分

为了更加直观的展示我们提出的车道线检测模型DV-3DLane的性能,我们将提出的算法模型与LATR算法模型的检测结果进行了可视化,用于展现我们提出的算法模型在各种场景下均可以实现更为稳健和准确的预测过程,可视化结果如下图所示。

DV-3DLane和LATR算法模型车道线检测结果可视化对比

结论

考虑到PV空间和BEV空间带来的双重优势,本文提出了一种新颖的端到端多模态3D车道线检测框架。在OpenLane开源数据集上大量的实验结果表明,本文提出的算法模型实现了SOTA的表现性能。

参考

[1] DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论