2024-12-27 AAAI’25 | EGSRAL:3DGS渲染器如何生成带有自动标注的全新视角图像?

大规模场景的视角合成和自动标注

生成逼真的全新视角图像是计算机视觉和图形学领域中一个复杂且关键的挑战。随着神经辐射场的快速发展,自由视角合成逐渐扩展到大规模视角合成领域,尤其是在为自动驾驶提供关键街景图像的场景中。然而,由于地理位置的复杂性、多样化的环境以及变化的道路状况,模拟室外环境仍然面临诸多挑战。为了解决这些问题,图像到图像转换方法被提出,旨在通过学习源图像与目标图像之间的映射来生成具有语义标注的街景图像。尽管这些方法能够生成视觉效果惊艳的街景图像,但它们通常在局部细节上表现出明显的伪影和纹理不一致。此外,生成图像的视角通常较为单一,在复杂的自动驾驶场景中应用时存在一定困难。

为了应对这些挑战,Drive-3DAu引入了一种基于NeRF的3D数据增强方法,用于在3D空间中增强驾驶场景。DGNR提出了一种新框架,通过从场景中学习密度空间来指导基于点的渲染器的构建。同时,READ提供了一个大规模驾驶仿真环境,用于为高级驾驶辅助系统生成真实数据。由于其卓越的生成能力,基于3D GS的方法被用于合成驾驶场景。尽管这些方法能够生成适合自动驾驶的真实图像,但它们无法同时生成全新视角和对应的2D/3D标注框,而这些对于监督模型的训练至关重要。因此,增强大规模场景的全新视角合成能力并实现全新视角的自动标注,仍然是自动驾驶领域中的关键挑战。

项目链接:https://github.com/jiangxb98/EGSRAL

为了解决这些挑战,EGSRAL[1]被设计为一种基于增强3D Gaussian Splatting(3D GS)技术的新框架。该框架在提升全新视角合成质量的同时,能够同时生成对应的标注。具体而言,我们提出了一个变形增强模块,用于优化高斯变形场,从而提升动态物体和静态背景的建模能力。此外,我们引入了一个利用神经网络替代原始可学习参数的不透明度增强模块,大幅提升了复杂驾驶场景的建模能力。针对在大规模复杂场景中渲染不合理视角的问题,例如不应包含被遮挡的远处高斯,我们提出了一种分组策略来优化原始3D GS。

主要贡献

  1. 提出了一种增强型基于3D GS的渲染器EGSRAL,该方法能够基于现有数据集的标注,生成带有对应标注的全新视角图像。EGSRAL引入了变形增强模块和不透明度增强模块,提升了3D GS对复杂场景的建模能力。
  2. 针对大规模复杂场景渲染中不合理视角的问题,我们提出了一种分组策略,用于优化原始3D GS。
  3. 与仅关注全新视角合成的现有方法不同,我们提出了一种带有三个约束的适配器,将相邻标注框转换为自动驾驶领域中的全新标注框。
  4. 实验结果表明,方法在大规模场景的渲染方法中表现优于现有方法。此外,带有对应标注的全新视角图像有效提升了2D/3D检测模型的性能。

具体方法

总览

给定驾驶场景的输入图像序列以及通过结构化运动(SfM)方法估算的点云,我们提出的EGSRAL框架能够从多个视角合成真实的驾驶场景,同时自动标注对应的全新合成视角图像。此外,我们还提出了一种分组策略,用于解决大规模驾驶场景中的视角问题。该框架分为两个部分:增强型3D GS渲染器和全新视角自动标注,如图1所示。

3D GS渲染器基于可变形3D GS,并通过创新模块进行了扩展,以改进全新视角的合成能力。对于自动标注,我们引入了一种适配器,用于变换相机姿态和边界框,从而生成全新视角的对应标注。

增强型3D GS渲染

全新视角自动标注

适配器的需求

我们的方法利用图像序列(数据集)通过结构化运动(SfM)方法构建场景点云,并估算相机姿态和参数。生成的点云和相机姿态被定义在SfM方法生成的新坐标系中。然而,图像序列的3D标注及其对应的相机姿态通常定义在原始世界坐标系(OWCS)中,例如在nuScenes数据集中。因此,存在两个不同的坐标系:原始世界坐标系(OWCS)和由SfM方法生成的估算世界坐标系(EWCS)。

我们的渲染器基于EWCS进行训练,因为它使用了在EWCS中估算的点和相机姿态作为输入。同时,用于生成全新视角图像的新相机姿态也基于EWCS,这使得数据集中3D标注在OWCS中的利用变得复杂。因此,需要一个变换适配器来建立这两个坐标系之间的关系,从而有效利用3D标注。通过该适配器,可以将原始世界坐标系(OWCS)中的全新视角相机姿态转换为估算世界坐标系(EWCS),并输入渲染器生成全新视角图像。

实验效果

总结一下

EGSRAL是一种新颖的基于3D GS的渲染器,结合了自动标注框架,能够生成带有对应标注的全新视角图像。在全新视角渲染方面,我们引入了两个有效的模块,以提高3D GS建模复杂场景的能力,并提出了一种分组策略来解决大规模场景中不合理视角的问题。在全新视角自动标注方面,我们提出了一种适配器,用于为全新视角生成新的标注。实验结果表明,EGSRAL在全新视角合成方面显著优于现有方法,并在带标注图像的目标检测性能上取得了优异的表现。

参考

[1] EGSRAL:An Enhanced 3D Gaussian Splatting based Renderer with Automated Labeling for Large-Scale Driving Scene

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论