对于一个安全的自动驾驶系统而言,准确的理解当前的3D场景是至关重要的。自动驾驶车辆通过利用传感器采集到的数据信息以及感知算法对当前场景包含的各类元素进行准确的感知和理解对于下游的规控任务起到了非常重要的作用。
最近,由于Occupancy Network感知算法可以更加有效的感知任意大小的物体、部分被遮挡的物体以及当前数据集中没有预先定义好的目标类别,而受到了来自工业界和学术界的广泛关注,目前已经有很多出色的Occupancy Network感知算法。
目前而言,在语义分割任务中,基于视觉的相关感知算法已经取得了和激光雷达感知算法相接近的表现性能,但是相关的实例提取任务相对研究的较少。考虑到理解周围环境中的具体实例目标可以消除目标不一致的语义预测结果以及相邻目标的混合预测问题,而这些预测上的混淆问题很有可能会损害下游规划模块的安全性。基于上述考虑,我们提出了一种新颖的单目全景3D场景重建方法,称之为PanoSSC。通过相关的实验结果可以证明,相比于其它的单目算法模型,我们提出的PanoSSC算法模型在SemanticKITTI数据集上实现了更具竞争力的表现性能。同时,PanoSSC还是首个仅依靠视觉信息来解决户外全景3D场景重建的算法模型。

PanoSSC算法模型实现了室外场景的单目场景的重建任务
论文链接:https://arxiv.org/pdf/2406.07037
网络模型的整体架构&细节梳理
语义占用预测是将当前的3D立体空间划分成网格体素的形式,并且通过算法模型来预测每个体素的具体语义标签类别。全景3D场景重建任务将会进一步预测属于前景类别的每个体素的实例序号。在详细介绍本文提出的PanoSSC全景3D场景重建算法之前,下图展示了我们提出的PanoSSC算法模型的整体网络结构。

提出的PanoSSC单目全景3D场景重建模型的整体网络结构图

3D Mask Decoder(3D掩码解码器)
为了提升算法模型前景实例的重建和分割质量,我们将体素特征输入到实例补全头模块中实现实例感知语义占用的预测。我们提出了一个基于Transformer的3D掩码解码器作为实例补全头模块,从给定的查询中预测类别属性以及3D掩码信息,其网络结构如下图所示。

3D Mask Decoder模块的具体实现流程

Mask-wise merging inference(掩码合并推理)

下面的伪代码具体说明了我们掩码合并推理的整体逻辑情况

Mask-wise Merging算法的伪代码整体流程

训练策略

实验结果&评价指标
定量分析部分
为了验证我们提出的算法模型PanoSSC对于语义场景补全任务的有效性,我们在SemanticKITTI数据集上与其它的算法模型进行了对比实验,相关的实验结果如下所示。

不同算法模型在SemanticKITTI数据集上的语义场景补全结果汇总
通过汇总的实验结果可以看出,我们提出的算法模型在主要的mIoU评测指标上实现了与SOTA想接近的性能。此外,我们提出的算法模型有助于区分相似的目标类别,并显著提高卡车以及其他车辆的重建效果。
此外,为了验证我们提出算法模型对于全景3D场景重建任务的有效性,我们将提出的算法模型与其它的算法模型进行了实验对比,相关的结果如下所示。

不同算法模型在SemanticKITTI数据集上全景3D场景补全结果汇总
通过上述的实验结果可以看出,我们提出的算法模型的场景补全性能明显优于对SSC方法的输出进行聚类的算法。与MonoScene算法模型相比,我们提出的PanoSSC算法模型的全景重建质量更高,特别是对于前景类别。
此外,为了更加直观的展示各个算法模型在不同类别上的表现性能,我们也将相关实验结果进行了汇总,如下所示

不同算法模型针对不同类别的重建性能
通过实验结果可以看出,与对语义占用头和TPVFormer模型的输出结果进行欧氏聚类相比,添加实例补全头模块可以大大提高算法模型对于卡车和其他车辆的全景重建质量。可以进一步的证明我们提出的网络模型可以更准确地区分这三个相似的目标类别:汽车、卡车和其他车辆。
定量分析部分
下图展示了不同的算法模型对于全景3D场景重建效果可视化图,通过实验结果可以看出,我们提出的PanoSSC算法模型具有最佳的重建效果。

不同算法模型的全景3D场景重建效果
结论
在本文中,我们提出了一种新颖的体素化场景理解方法,称之为PanoSSC,该方法可以解决室外语义占用预测和全景三维场景重建任务。在SemanticKITTI数据集上的相关实验结果表明,我们提出的PanoSSC算法模型在语义占用预测任务上的表现与最先进的单目方法相当。

发表回复