2024-07-02 港中文再创SOTA！DV-3DLane：多模态端到端车道检测新框架（ ICLR’24）

近年来，自动驾驶感知算法取得了非常显著的成绩。感知模块作为自动驾驶系统用于观察周围环境最为重要的途径之一，已经吸引了来自工业界和学术界的广泛关注。在感知模块当中，3D车道线的检测是其中非常关键的任务之一，是确保安全可靠导航的关键要素。由于3D车道线检测需要识别环境中车道线边界的3D空间位置，可以为路径规划和车辆控制等任务提供重要数据。

当前主流的3D车道线检测任务主要是采用视觉图像作为输入。其中一种典型的代表即单目的解决方案。这类单目的解决方案以单张彩色图像作为输入，利用IPM变换将二维的图像特征投影到BEV空间中。但由于IPM是基于平坦假设理论，所以基于此类的方法在遇到非平坦路面时会出现匹配错位的问题。此外，由于以视觉为输入数据的车道线检测算法在遇到恶劣的天气和光照条件下，不可避免的会出现感知现实世界驾驶场景的复杂性和困难性。

与采集图像数据的相机传感器相比，激光雷达传感器由于采集物体的点云数据信息，在空间定位和3D结构感知方面表现的更加出色，补充了相机传感器缺少的深度等信息，并且由于硬件的先进性而得到了工业界和学术界的广泛青睐。此外，最近在3D目标检测任务开展的一系列工作已经证明了激光雷达传感器和多模态融合在自动驾驶感知任务中展现出了广泛的发展前景。

考虑到采集到的图像数据中包含丰富的语义信息，以及BEV空间表示可以提供准确的空间位置信息，我们利用多模态融合的方法来提高3D车道线的检测性能。具体而言，我们同时参考来自PV空间和BEV空间的特征表达结果，进而提高模型的学习表示，提出了一种新颖的端到端多模态3D车道线检测框架，称之为DV-3DLane算法模型。提出的算法模型在OpenLane数据集上实现了SOTA的检测性能，F1分数提升了11.2%，错误率降低了53.5%

提出的DV-Lane算法模型与其它算法模型的精度和推理耗时对比

论文链接：https://arxiv.org/pdf/2406.16072

网络模型的整体架构&细节梳理

在详细介绍本文提出的基于多模态的端到端3D车道线检测算法模型DV-3DLane之前，下图展示了我们提出的DV-3DLane算法的整体网络结构。

DV-3DLane算法模型的整体网络结构图

通过上述的网络结构可以看出，我们为了实现保持PV空间和BEV空间的双视角空间的特征表示，我们采用了由PV分支和BEV分支组成的对称主干网络分别用于提取PV空间和BEV空间的特征信息。此外，为了充分利用图像特征信息与点云特征信息各自的优势可以在PV和BEV空间进行充分的学习，我们设计了一种双向特征融合策略（Bidirectional Feature Fusion）。然后，为了有效地利用保留的双视图特征进行基于查询的检测，我们设计了统一查询生成器（Unified Query Generator）。此外，为了实现双视角查询过程的统一，我们提出了一种以车道线为中心的聚合技术。同时，我们使用了Transformer解码器将来自两个视角空间的特征集成到统一的查询中。而且，为了在不同的视角空间中有效聚合特征，我们引入了一种3D双视角可变形注意力机制（3D Dual-View Deformable Attention），将对应的参考点投影到PV和BEV两类视图平面上，从而在每个相应视图空间中产生2D采样点，用于完成在各类视图空间上的特征采样。

接下来我们将详细介绍上述提到的各类关键模块的实现细节

双向特征融合模块（Bidirection Feature Fusion）

考虑到2D图像当中包含有丰富的语义信息以及点云数据中包含丰富的几何结构信息，代替将不同视角的特征信息全部融合到单独的一个视角空间中，我们同时保留了PV和BEV空间中的特征信息，同时为每个视角空间合并多模态的特征信息。具体而言，我们采用了PV和BEV双分支来提取每个视图的特征，然后在对称分支中进行双向的特征融合用于增强每个视角空间的多模态特征，其处理流程如下图所示。