2024-02-29 解锁SLAM新纪元！基于NeRF和3D GS方法综述

综述

How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey

Fabio Tosi, Youmin Zhang, Ziren Gong, Erik Sandström, Stefano Mattoccia, Martin R. Oswald, Matteo Poggi

University of Bologna，Rock Universe，ETH Zurich，University of Amsterdam

在过去的二十年中，同步定位与建图 (SLAM) 领域的研究经历了重大发展，凸显了其在实现未知环境自主探索方面的关键作用。这种演变的范围从手工制作的方法，到深度学习时代，再到最近以神经辐射场 (NeRF) 和 3D 高斯分布 (3DGS) 表示为重点的发展。认识到越来越多的研究以及缺乏对该主题的全面调查，本文旨在通过辐射领域的最新进展，首次全面概述 SLAM 的进展。它揭示了背景、演变路径、固有优势和局限性，并为突出动态进展和具体挑战提供了基本参考。

3DGS相关

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

https://arxiv.org/abs/2402.14650

Kai Cheng, Xiaoxiao Long, Kaizhi Yang, Yao Yao, Wei Yin, Yuexin Ma, Wenping Wang, Xuejin Chen

中科大、香港大学、南京大学、The University of Adelaide，上海科技大学，Texas A&M University

3D高斯泼溅（3DGS）的出现最近给神经渲染领域带来了一场革命，促进了实时速度的高质量渲染。然而，3DGS 在很大程度上依赖于运动结构 (SfM) 技术生成的初始化点云。当处理不可避免地包含无纹理表面的大型场景时，SfM 技术总是无法在这些表面中产生足够的点，并且无法为 3DGS 提供良好的初始化。因此，3DGS 面临着优化困难和渲染质量低下的问题。在本文中，受经典多视图立体 (MVS) 技术的启发，我们提出了 GaussianPro，这是一种应用渐进传播策略来指导 3D 高斯的致密化的新颖方法。与 3DGS 中使用的简单分割和克隆策略相比，我们的方法利用场景的现有重建几何形状的先验和补丁匹配技术来生成具有准确位置和方向的新高斯。大规模和小规模场景的实验验证了我们方法的有效性，我们的方法在Waymo数据集上显着超越了3DGS，在PSNR方面表现出1.15dB的改进。

Identifying Unnecessary 3D Gaussians using Clustering for Fast Rendering of 3D Gaussian Splatting

https://arxiv.org/abs/2402.13827

Joongho Jo, Hyeongwon Kim, Jongsun Park

Korea University

3D 高斯泼溅 (3D-GS) 是一种新的渲染方法，在速度和图像质量方面均优于神经辐射场 (NeRF)。 3D-GS利用数百万个3D高斯来表示3D场景，并将这些高斯投影到2D图像平面上进行渲染。然而，在渲染过程中，当前视图方向存在大量不必要的 3D 高斯，导致与其识别相关的大量计算成本。在本文中，我们提出了一种计算缩减技术，可以实时快速识别不必要的 3D 高斯，以在不影响图像质量的情况下渲染当前视图。这是通过对距离较近的 3D 高斯进行离线聚类，然后在运行时将这些聚类投影到 2D 图像平面上来实现的。此外，我们分析了在 GPU 上执行时与所提出的技术相关的瓶颈，并提出了一种无缝支持所提出的方案的高效硬件架构。对于 Mip-NeRF360 数据集，所提出的技术在 2D 图像投影之前平均排除 63% 的 3D 高斯，这在不牺牲峰值信噪比 (PSNR) 的情况下将整体渲染计算量减少了近 38.3%。与 GPU 相比，所提出的加速器还实现了 10.7 倍的加速。

NeRF相关

Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

https://arxiv.org/abs/2402.12377

Christian Reiser, Stephan Garbin, Pratul P. Srinivasan, Dor Verbin, Richard Szeliski, Ben Mildenhall, Jonathan T. Barron, Peter Hedman, Andreas Geiger

University of Tübingen、Google Research

虽然基于表面的视图合成算法由于计算要求低而颇具吸引力，但它们通常难以再现薄结构。相比之下，将场景几何模型建模为体积密度场的更昂贵的方法（例如 NeRF）擅长重建精细的几何细节。然而，密度场通常以“模糊”方式表示几何形状，这阻碍了表面的精确定位。在这项工作中，我们修改密度场以鼓励它们向表面汇聚，而不损害它们重建薄结构的能力。首先，我们采用离散不透明度网格表示而不是连续密度场，这允许不透明度值在表面从零不连续地过渡到一。其次，我们通过为每个像素投射多条光线来消除锯齿，这允许在不使用半透明体素的情况下对遮挡边界和子像素结构进行建模。第三，我们最小化不透明度值的二元熵，这通过鼓励不透明度值在训练结束时二值化来促进表面几何形状的提取。最后，我们开发了一种基于融合的网格划分策略，然后进行网格简化和外观模型拟合。我们的模型生成的紧凑网格可以在移动设备上实时渲染，并且与现有的基于网格的方法相比，可以实现显着更高的视图合成质量。

Colorizing Monochromatic Radiance Fields

https://arxiv.org/abs/2402.12184

Yean Cheng, Renjie Wan, Shuchen Weng, Chengxuan Zhu, Yakun Chang, Boxin Shi

北大、Hong Kong Baptist University

尽管神经辐射场 (NeRF) 可以通过使用一组 2D 图像来生成世界的彩色 3D 表示，但当仅提供单色图像时，这种能力就变得不存在。由于颜色对于表示世界是必要的，因此从单色辐射场再现颜色变得至关重要。为了实现这一目标，我们不直接操纵单色辐射场，而是将其视为 Lab 颜色空间中的表示预测任务。通过首先使用单色图像构建亮度和密度表示，我们的预测阶段可以基于图像着色模块重新创建颜色表示。然后，我们通过亮度、密度和颜色的表示来重现彩色隐式模型。已经进行了大量的实验来验证我们方法的有效性。

Consolidating Attention Features for Multi-view Image Editing

https://arxiv.org/abs/2402.14792

Or Patashnik, Rinon Gal, Daniel Cohen-Or, Jun-Yan Zhu, Fernando De la Torre

特拉维夫大学、nVidia、CMU

大型文本到图像模型支持多种图像编辑技术，使用文本提示甚至空间控制。然而，将这些编辑方法应用于描绘单个场景的多视图图像会导致 3D 不一致的结果。在这项工作中，我们专注于基于空间控制的几何操作，并介绍一种跨各种视图整合编辑过程的方法。我们基于两个见解：（1）在整个生成过程中保持一致的特征有助于实现多视图编辑的一致性，（2）自注意力层中的查询显着影响图像结构。因此，我们建议通过强制查询的一致性来提高编辑图像的几何一致性。为此，我们引入了 QNeRF，这是一种根据编辑图像的内部查询特征进行训练的神经辐射场。经过训练后，QNeRF 可以渲染 3D 一致的查询，然后在生成过程中将其软注入回自注意力层中，从而极大地提高多视图一致性。我们通过渐进式迭代方法改进流程，更好地整合扩散时间步长中的查询。我们将我们的方法与一系列现有技术进行比较，并证明它可以实现更好的多视图一致性和对输入场景的更高保真度。这些优点使我们能够以更少的视觉伪影来训练 NeRF，并且与目标几何形状更好地对齐。

SealD-NeRF: Interactive Pixel-Level Editing for Dynamic Scenes by Neural Radiance Fields

https://arxiv.org/abs/2402.13510

Zhentao Huang, Yukun Shi, Neil Bruce, Minglun Gong

University of Guelph

隐式神经表示（尤其是神经辐射场 (NeRF)）的广泛采用凸显了对隐式 3D 模型编辑功能的需求不断增长，这对于场景后处理和 3D 内容创建等任务至关重要。尽管之前在 NeRF 编辑方面做出了努力，但由于编辑灵活性和质量的限制，挑战仍然存在。关键问题是开发一种支持本地编辑以进行实时更新的神经表示。目前的 NeRF 编辑方法提供像素级调整或详细的几何和颜色修改，但大多仅限于静态场景。本文介绍了 SealD-NeRF，它是 Seal-3D 的扩展，用于动态设置中的像素级编辑，专门针对 D-NeRF 网络。它通过将编辑操作映射到特定时间范围、冻结负责动态场景表示的变形网络以及使用师生方法来集成更改，允许跨序列进行一致的编辑。

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

https://arxiv.org/abs/2402.13252

Bo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu

National Yang Ming Chiao Tung University

在本文中，我们提出了一种算法，允许仅使用 2D 图像作为监督，联合细化由分解的低秩张量表示的相机姿态和场景几何形状。首先，我们基于 1D 信号进行了一项试点研究，并将我们的发现与 3D 场景相关联，其中基于体素的 NeRF 的朴素联合姿势优化很容易导致次优解决方案。此外，基于频谱分析，我们建议在 2D 和 3D 辐射场上应用卷积高斯滤波器，以实现从粗到细的训练计划，从而实现联合相机姿态优化。利用分解的低秩张量的分解特性，我们的方法实现了与强力 3D 卷积等效的效果，并且只产生很少的计算开销。为了进一步提高联合优化的鲁棒性和稳定性，我们还提出了平滑二维监督、随机缩放内核参数和边缘引导损失掩模的技术。广泛的定量和定性评估表明，我们提出的框架在新颖的视图合成以及快速收敛优化方面实现了卓越的性能。

NeRF Solves Undersampled MRI Reconstruction

https://arxiv.org/abs/2402.13226

Tae Jun Jang, Chang Min Hyun

Yonsei University，三星 Medison，宾大

本文提出了一种利用神经辐射场 (NeRF) 概念的新型欠采样磁共振成像 (MRI) 技术。通过径向欠采样，相应的成像问题可以从稀疏视图渲染数据重新表述为图像建模任务；因此，通过利用隐式神经表示，可以从欠采样的 k 空间数据中获得高维 MR 图像。多层感知器旨在从空间坐标输出图像强度，学习给定测量数据和所需图像之间的 MR 物理驱动渲染关系。研究了高质量神经表示的有效欠采样策略。所提出的方法有两个好处：（i）学习完全基于单个欠采样的 k 空间数据，而不是一堆测量数据和目标图像集。它可以潜在地用于诊断 MR 成像，例如胎儿 MRI，其中数据采集相对较少或相对于临床图像的多样性受到限制，同时强烈需要欠采样重建。 (ii) 重建的 MR 图像是高度适应给定 k 空间测量的扫描特定表示。大量实验验证了所提出方法的可行性和能力。

OccFlowNet: Towards Self-supervised Occupancy Estimation via Differentiable Rendering and Occupancy Flow

https://arxiv.org/abs/2402.12792

Simon Boeder, Fabian Gigengack, Benjamin Risse

University of Munster

语义占用作为一种突出的 3D 场景表示最近获得了巨大的关注。然而，大多数现有方法依赖于具有细粒度 3D 体素标签的大型且昂贵的数据集进行训练，这限制了它们的实用性和可扩展性，增加了该领域自我监控学习的需求。在这项工作中，我们提出了一种受神经辐射场 (NeRF) 启发的新颖的占用估计方法，仅使用 2D 标签，这种方法更容易获取。特别是，我们采用可微分体积渲染来预测深度和语义图，并仅基于 2D 监督训练 3D 网络。为了提高几何精度并增加监督信号，我们引入了相邻时间步长的时间渲染。此外，我们引入占用流作为处理场景中动态对象并确保其时间一致性的机制。通过广泛的实验，我们证明，与使用 3D 标签的方法相比，仅 2D 监督就足以实现最先进的性能，同时优于并发 2D 方法。当将 2D 监督与 3D 标签、时间渲染和占用流相结合时，我们的性能显着优于之前所有的占用估计模型。我们的结论是，所提出的渲染监督和占用流程促进了占用估计，并进一步缩小了该领域自我监督学习的差距。

FrameNeRF: A Simple and Efficient Framework for Few-shot Novel View Synthesis

https://arxiv.org/abs/2402.14586

Yan Xing, Pan Wang, Ligang Liu, Daolun Li, Li Zhang

合肥理工大学、中科大

我们提出了一个名为 FrameNeRF 的新颖框架，旨在应用现成的快速高保真 NeRF 模型，该模型具有快速训练速度和高渲染质量，适用于少样本新颖的视图合成任务。快速高保真模型的训练稳定性通常受限于密集视图，这使得它们不适合少量的新颖视图合成任务。为了解决这个限制，我们利用正则化模型作为数据生成器，从稀疏输入生成密集视图，从而促进快速高保真模型的后续训练。由于这些密集视图是由正则化模型生成的伪地面实况，因此原始稀疏图像随后用于微调快速高保真模型。此过程有助于模型学习真实的细节并纠正早期阶段引入的工件。通过利用现成的正则化模型和快速高保真模型，我们的方法在各种基准数据集上实现了最先进的性能。

NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth Supervision for Indoor Multi-View 3D Detection

https://arxiv.org/abs/2402.14464

Chenxi Huang, Yuenan Hou, Weicai Ye, Di Huang, Xiaoshui Huang, Binbin Lin, Deng Cai, Wanli Ouyang

浙江大学、上海AI实验室、悉尼大学

NeRF-Det 通过创新地利用 NeRF 来增强表示学习，在室内多视图 3D 检测中取得了令人印象深刻的性能。尽管其性能显着，但我们发现其当前设计中的三个决定性缺陷，包括语义模糊、采样不当和深度监督利用不足。为了解决上述问题，我们提出了三种相应的解决方案：1）语义增强。我们将免费提供的 3D 分割注释投影到 2D 平面上，并利用相应的 2D 语义图作为监督信号，显着增强了多视图检测器的语义感知。 2) 视角感知采样。我们没有采用统一采样策略，而是提出了透视感知采样策略，在相机附近密集采样，在远处稀疏采样，更有效地收集有价值的几何线索。 3）序数剩余深度监督。与直接回归难以优化的深度值相反，我们将每个场景的深度范围划分为固定数量的序数箱，并将深度预测重新表述为深度箱的分类以及深度箱的回归的组合。剩余深度值，从而有利于深度学习过程。由此产生的算法 NeRF-Det++ 在 ScanNetV2 和 ARKITScenes 数据集中表现出了吸引人的性能。值得注意的是，在 ScanNetV2 中，NeRF-Det++ 在 mAP@0.25 中比竞争对手 NeRF-Det 的性能高出 +1.9%，在 mAP@0.50$ 中比竞争对手 NeRF-Det 高出 +3.5%。

TaylorGrid: Towards Fast and High-Quality Implicit Field Learning via Direct Taylor-based Grid Optimization

https://arxiv.org/abs/2402.14415

Renyi Mao, Qingshan Xu, Peng Zheng, Ye Wang, Tieru Wu, Rui Ma

吉林大学、南洋理工大学、MOE

基于坐标的神经隐式表示或隐式场已被广泛研究用于 3D 几何表示或新颖的视图合成。最近，一系列的努力致力于加快基于坐标的隐式场学习的速度和提高质量。人们提出将神经体素或网格与浅层 MLP 相结合，而不是学习重 MLP 来预测查询坐标的神经隐式值，以实现高质量的隐式场学习，并减少优化时间。另一方面，线性网格等轻量级场表示被提出来进一步提高学习速度。在本文中，我们的目标是快速和高质量的隐式场学习，并提出了 TaylorGrid，一种新颖的隐式场表示，可以通过 2D 或 3D 网格上的直接泰勒展开优化来有效计算。作为通用表示，TaylorGrid 可以适应不同的隐式领域学习任务，例如 SDF 学习或 NeRF。通过广泛的定量和定性比较，TaylorGrid实现了线性网格和神经体素之间的平衡，显示了其在快速、高质量隐式场学习方面的优越性。

Mip-Grid: Anti-aliased Grid Representations for Neural Radiance Fields

https://arxiv.org/abs/2402.14196

Seungtae Nam, Daniel Rho, Jong Hwan Ko, Eunbyung Park

Sungkyunkwan University、AI2XL、Sungkyunkwan University

尽管神经辐射场 (NeRF) 在表示 3D 场景和生成新颖的视图图像方面取得了显着的成就，但在大多数现有方法中，在不同相机距离渲染“锯齿”或“模糊”图像的混叠问题仍然没有得到解决。最近提出的 mip-NeRF 通过渲染截头圆锥体而不是射线解决了这一挑战。然而，它依赖 MLP 架构来表示辐射场，错过了最新的基于网格的方法所提供的快速训练速度。在这项工作中，我们提出了 mip-Grid，这是一种新颖的方法，它将抗锯齿技术集成到基于网格的辐射场表示中，在享受快速训练时间的同时减轻锯齿伪影。所提出的方法通过在共享网格表示上应用简单的卷积运算来生成多尺度网格，并使用尺度感知坐标从生成的多尺度网格中检索不同尺度的特征。为了测试有效性，我们将所提出的方法集成到最近两种代表性的基于网格的方法 TensoRF 和 K-Planes 中。实验结果表明，mip-Grid 极大地提高了两种方法的渲染性能，甚至在多尺度数据集上优于 mip-NeRF，同时显着缩短了训练时间。

AltNeRF: Learning Robust Neural Radiance Field via Alternating Depth-Pose Optimization

https://arxiv.org/abs/2308.10001

Kun Wang, Zhiqiang Yan, Huang Tian, Zhenyu Zhang, Xiang Li, Jun Li, Jian Yang

南京理工大学、南京大学（苏州小区），南开大学

神经辐射场 (NeRF) 在从稀疏场景图像生成逼真的新颖视图方面表现出了良好的前景。然而，由于缺乏明确的 3D 监督和不精确的相机姿势，现有的 NeRF 方法经常遇到挑战，导致结果不理想。为了解决这些问题，我们提出了 AltNeRF——一种新颖的框架，旨在使用单目视频的自监督单目深度估计（SMDE）创建弹性 NeRF 表示，而不依赖于已知的相机姿势。 AltNeRF 中的 SMDE 巧妙地学习深度和姿势先验来调节 NeRF 训练。深度先验丰富了 NeRF 精确场景几何描述的能力，而姿势先验为后续姿势细化提供了稳健的起点。此外，我们引入了一种交替算法，通过一致性驱动机制将 NeRF 输出和谐地融合到 SMDE 中，从而增强深度先验的完整性。这种交替使 AltNeRF 能够逐步完善 NeRF 表示，从而产生现实新颖的观点的综合。大量的实验展示了 AltNeRF 在生成与现实非常相似的高保真和强大的新颖视图方面的引人注目的能力。

2024-02-29 解锁SLAM新纪元！基于NeRF和3D GS方法综述

综述

How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey

3DGS相关

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

Identifying Unnecessary 3D Gaussians using Clustering for Fast Rendering of 3D Gaussian Splatting

NeRF相关

Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

Colorizing Monochromatic Radiance Fields

Consolidating Attention Features for Multi-view Image Editing

SealD-NeRF: Interactive Pixel-Level Editing for Dynamic Scenes by Neural Radiance Fields

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

NeRF Solves Undersampled MRI Reconstruction

OccFlowNet: Towards Self-supervised Occupancy Estimation via Differentiable Rendering and Occupancy Flow

FrameNeRF: A Simple and Efficient Framework for Few-shot Novel View Synthesis

NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth Supervision for Indoor Multi-View 3D Detection

TaylorGrid: Towards Fast and High-Quality Implicit Field Learning via Direct Taylor-based Grid Optimization

Mip-Grid: Anti-aliased Grid Representations for Neural Radiance Fields

AltNeRF: Learning Robust Neural Radiance Field via Alternating Depth-Pose Optimization

发表回复取消回复

Categories

Archives

2024-02-29 解锁SLAM新纪元！基于NeRF和3D GS方法综述

综述

How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey

3DGS相关

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

Identifying Unnecessary 3D Gaussians using Clustering for Fast Rendering of 3D Gaussian Splatting

NeRF相关

Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

Colorizing Monochromatic Radiance Fields

Consolidating Attention Features for Multi-view Image Editing

SealD-NeRF: Interactive Pixel-Level Editing for Dynamic Scenes by Neural Radiance Fields

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

NeRF Solves Undersampled MRI Reconstruction

OccFlowNet: Towards Self-supervised Occupancy Estimation via Differentiable Rendering and Occupancy Flow

FrameNeRF: A Simple and Efficient Framework for Few-shot Novel View Synthesis

NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth Supervision for Indoor Multi-View 3D Detection

TaylorGrid: Towards Fast and High-Quality Implicit Field Learning via Direct Taylor-based Grid Optimization

Mip-Grid: Anti-aliased Grid Representations for Neural Radiance Fields

AltNeRF: Learning Robust Neural Radiance Field via Alternating Depth-Pose Optimization

发表回复 取消回复

Categories

Archives

发表回复取消回复