目前,具备智驾技术的自动驾驶汽车都会配备环视相机来捕捉周围的3D环境。3D场景重建对于自动驾驶系统理解驾驶场景至关重要,此外,从稀疏的车载摄像头实时准确地重建驾驶场景有助于自动驾驶中的各种下游任务,包括在线建图、BEV感知和3D目标检测。
然而,各类下游任务所需的实时计算和稀疏的周围视图对驾驶场景重建提出了挑战。从目前来看,NeRF和3DGS显著推动了3D场景重建任务的发展,但目前最新的相关技术通常需要较多的图像以及比较长时间的计算时间才能重建出一个场景,导致这些重建方法并不适用于自动驾驶中的实时下游任务,从而限制了它们的实用性。
考虑到上述提到的相关问题,我们的目标是从稀疏的环视视图中实现在线、可泛化的3D驾驶场景重建。考虑到在线和可泛化的3D驾驶场景重建面临的挑战包括实时处理、稀疏的周围视图和最小重叠以及输入帧数量的可变性,我们提出了一种新颖的前馈3DGS算法模型,可以从灵活稀疏的环视图像中实时重建驾驶场景,该算法称之为DrivingForward。
在nuScenes数据集上进行的大量实验结果表明,我们提出的DrivingForward算法模型在各种输入下的新视图合成方面优于其他前馈算法模型。与具有相同输入的场景优化方法相比,DrivingForward算法还实现了更高的重建质量。下图展示了我们提出的DrivingForward与最新相关算法的表现性能比较。

将我们提出的DrivingForward算法模型与其他相关算法进行对比
论文链接:https://arxiv.org/pdf/2409.12753v1;
网络模型的整体架构&细节梳理
在详细介绍本文提出的DrivingForward算法模型之前,下图展示了我们提出的DrivingForward算法的整体网络结构。

提出的DrivingForward算法模型的整体流程图

尺度感知定位




单张图像的高斯参数预测

联合训练策略
通过对每个输入视图应用尺度感知定位和高斯参数预测,我们获得所有图像的高斯基元。然后将这些基元聚合到3D空间中以形成3D表达。通过3DGS中基于splat的光栅化渲染可以实现新颖的视图合成。
我们联合训练整个模型,包括深度网络、位姿网络和高斯网络。对于深度和位姿网络的warp操作,我们使用spatial transformer网络从源图像中采样合成图像。为了在3D空间中获得高斯基元后渲染新颖的视图,基于splat的光栅化渲染也是完全可微的。这两个操作以及其他可微分部分使端到端的联合训练成为可能。我们将来自深度网络的图像特征融合到高斯网络中。此共享特征将尺度感知位置与其他高斯参数的预测联系起来,使高斯网络能够利用来自时间和空间上下文的尺度信息。此外,它还促进了整个模型的收敛。
通过联合训练策略,我们在一个阶段实现了尺度感知定位和高斯参数预测,并支持灵活的多帧输入,因为预测独立地依赖于周围视图的每一帧数据信息。
实验结果&评价指标


通过上图的实验结果可以看出,尽管我们调整了方法以适应baseline的不同设置,但我们在相应配置下的所有指标上都优于它们。此外,为了更加直观的展示我们提出的算法模型的优越性,我们也将相关的结果进行了可视化。

不同算法模型的可视化结果

不同算法模型的可视化结果比较
通过可视化的结果可以看出,我们的DrivingForward算法模型取得了最高质量的效果,即使是对于具有挑战性的细节,例如左前视图中的交通标志和右后视图中带有文字的纪念碑。其他方法在这些区域中显示出明显的伪影,而我们的方法合成了清晰的新颖视图而没有此类伪影。
我们将我们的前馈方法与代表场景优化方法的原始3DGS进行了比较。在SF模式下,我们训练模型并从验证集中选择前三个场景。然后,我们针对每个场景分别优化3DGS模型,并将3DGS模型渲染的新视图图像与我们的进行比较。下表展示了三个场景的平均测试时间和指标。3DGS需要几分钟来合成场景的新视图。相比之下,我们的前馈方法在半秒内完成此操作,并且无需过多的测试时间优化即可实现更高的重建质量。

此外,我们也比较了不同算法之间的运行时间和内存消耗,统计结果如下表所示。

通过统计结果也可以明显的看出,我们在运行时间和内存消耗等方面都更有优势。
结论
在本文中,我们提出了一个前馈Gaussian Splatting算法模型,用于在输入环视图像的情况下实现实时的驾驶场景重建,该算法称之为DrivingForward。此外,我们提出的DrivingForward算法模型不需要深度真值信息,并且在训练过程中不受外部因素的影响。相关的实验结果表明,在推理阶段,与现有的前馈和场景优化重建方法相比,我们提出的算法模型比其他方法更快,并且对驾驶场景实现了更高的重建质量。
参考
[1] DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input

发表回复