2025-02-26 无需LiDAR和手动标注,直达143 FPS!OG-Gaussian利用占据网格语义信息「降本增效」

原文链接:https://mp.weixin.qq.com/s/HI_AWvbmCa-Lmf0nJgZE0w

摆脱LiDAR如何重建自驾场景

重建逼真且几何精确的三维场景长期以来一直是计算机视觉的一个关键目标。随着神经辐射场(NeRF)和三维高斯喷溅(3DGS)等技术的进步,生成高精度的三维模型变得更加可行。这些技术大大增强了虚拟环境的真实感,并在医学成像、手术导航和虚拟现实等多个领域具有重要应用。在自动驾驶领域,这些重建技术能够提供周围环境的精确三维模型,包括街道、建筑物甚至动态物体。这种能力提升了自动驾驶系统的导航能力,并使极端场景的仿真成为可能,扩展了现实的边界,同时对其进行了数字化。

为了实现自动驾驶场景的高精度重建,NeRF被用作基础技术,通过神经网络将场景表示为连续的三维体积。虽然这种方法能够生成高质量的户外场景,但其缺点是需要大量的训练资源且渲染速度较慢。随着三维高斯喷溅(3DGS)的出现,这种低成本、快速渲染的三维场景重建方法迅速获得了广泛关注。原生的3DGS并不适合处理包含动态物体的大型户外场景。为了将该技术适配于自动驾驶场景重建,现有的3DGS研究将注意力集中在结合LiDAR生成的点云并使用标注的三维边界框来重建包含动态物体的街道场景上。它们成功地将动态物体从静态背景中分离出来,取得了低训练成本下的良好重建效果。

然而,这些技术仍然需要:

  1. 昂贵的LiDAR来生成点云
  2. 需要带有预标注动态车辆边界和轨迹的数据集。

为了缓解这一限制,将占据预测网络(ONet)引入自动驾驶感知领域,并应用于三维场景重建。由于ONet将现实世界建模为具有语义信息的体素网格,我们可以消除对昂贵的LiDAR的需求,同时解决边界框无法捕捉未标注物体的问题。

本文介绍的OG-Gaussian[1]是一种新的自动驾驶场景重建方案。我们的方法首先通过安装在车辆上的摄像头捕捉周围视野图像。然后,我们使用占据预测网络(ONet)获取周围环境的占据网格(OG)信息。通过利用占据网格中的语义信息,我们将原始场景分为街道场景和动态车辆。接着,我们将背景街道的占据网格转换为点云,并通过二维图像投影将动态车辆的网格转化为初始点云集合。我们的方案不依赖昂贵的LiDAR点云作为初始点云,而是将通过占据网格获得的点云作为低成本的替代先验。这些点云将被转换为可优化的高斯椭球集。为了追踪动态车辆,我们将其初始点的位置和旋转矩阵定义为可学习的参数。这使得我们可以优化车辆的姿态和轨迹,描述动态车辆在现实世界中的运动方式。通过这种方式,我们的方法无需预标注的轨迹或动态物体的边界框。最终,优化后的高斯椭球将投影到二维空间中,渲染重建的自动驾驶场景。

我们在Waymo开放数据集上进行了实验,结果表明,OG-Gaussian在重建质量和渲染速度方面与当前的最先进方法相当,并且在不依赖LiDAR或任何标注的情况下,取得了平均PSNR为35.13,渲染速度为143 FPS。我们还进行了消融研究,以验证使用处理过的占据网格作为先验在重建自动驾驶场景中的有效性。我们为后续任务提供了一种快速、低成本的三维场景重建方法。

主要贡献

  • 我们介绍了OG-Gaussian,将占据网格融入到自动驾驶场景的重建中。这种方法消除了依赖昂贵的LiDAR生成初始点云的需求,仅需图像输入,并显著降低了三维场景重建的成本。
  • 我们利用占据网格的语义特性将动态车辆从静态背景中分离出来,并估计其姿态,消除了动态物体手动标注的需求。
  • 通过广泛的实验,我们的方法在重建质量和渲染速度方面与最先进的方法相当,平均PSNR为35.13,渲染速度为143 FPS,且不依赖LiDAR或任何标注。


具体方法

OG-Gaussian

在本节中,我们重点介绍OG-Gaussian的基本结构,并说明如何使用两组不同的点云来表示街道场景和动态车辆。以下是我们方法的详细解释。

街道模型

动态车辆模型

占据先验与周围视图

通过高斯喷溅进行全局渲染

实验效果

总结一下

OG-Gaussian是一种高效的方法,将占据网格(OGs)融入3DGS用于重建户外自动驾驶场景。我们的方法利用占据网格提供的先验进行场景重建,同时分离并重建动态车辆与静态街道场景。我们的表现与依赖LiDAR的现有最先进技术相当,但仅依赖于相机图像。我们的方法将使未来的研究人员能够快速且低成本地重建自动驾驶场景,为自动驾驶技术的发展做出贡献。

参考

[1] OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论