2025-03-13 0.1秒极速重建!Omni-Scene:以自车为中心的3D场景重建大模型(CVPR’25)

原文链接:https://mp.weixin.qq.com/s/3guF3SInhD4NG-1zePhijg

本文是西湖大学刘沛东教授团队在场景级3D重建大模型领域的最新研究成果,相关论文已被 CVPR 2025 接收,代码/数据/模型权重已开源。

  • 论文链接:https://arxiv.org/abs/2412.06273
  • 项目代码:https://github.com/WU-CVGL/Omni-Scene
  • 团队主页:https://ethliup.github.io/

背景与动机

此前3D重建大模型工作如LGM、pixelSplat、MVSplat等,主要关注以物体或场景为中心(Scene-Centric)的多视角重建,其要求输入图像之间存在较大的视角重叠,在应用时往往需要围绕物体或场景拍摄多张图像或视频。

这种较为低效的输入采集方式,不适用于对实时性要求很高的自动驾驶或具身智能领域的应用,其最理想的情况是:基于车辆/机器人当前位置所拍摄的图像,即可重建场景的3D外观和结构,使得智能系统可以在空间层面进行即时的交互和理解。

本文基于此观察,旨在研究一种以车辆/机器人为中心(Ego-Centric)的多视角3D重建大模型,无需围绕场景移动,基于单帧所拍摄的多视角图像,即可实现即时的大规模场景3D重建。

从上述目标出发,本文发现限制此前方法仅适用于以物体或场景为中心(Scene-Centric)重建的一个重要原因在于:此前方法所使用的像素对齐的3D表示方式,依赖于输入图像间的视角重叠来获取深度信息,从而将2D图像信息升维至3D空间,实现3D层面的重建相关参数的预测(如:NeRF、3DGS)。因此,本文试图从3D表示上改进来避免该问题。受基于体积3D表示的3D感知领域工作(如:BEVFormer、TPVFormer)的启发,本文认为体积表示可以直接在3D层面融合多视角的2D特征,无需预测深度,可以很好地补足此前基于像素表示的缺陷。

故而本文对不同3D表示的特点进行了如图1所示的分析,可以看到对于像素表示,其沿相机射线方向做反投影的方式有2个缺陷:(1)无法预测被遮挡的物体;(2)无法重建视锥以外的空间。而体积表示则恰好避开了这两个缺陷,然而其也存在2个问题:(1)受限于长宽高范围,无法表示远处的建筑或天空等;(2)受限于O(n3)的复杂度,难以精细化表示场景外观。这2个问题又正好被像素表示所弥补。

图1. 基于不同表示进行3D重建的示意图和效果对比

考虑到上述不同表示的优缺点及其互补性,本文提出了一种新颖的Omni-Gaussian表示方法,并为其精心设计了网络框架,从而对此前表示方法取长补短,实现不依赖于多视角重叠的Ego-Centric场景重建。在nuScenes数据集上的大量实验表明,本文所提出的基于Omni-Gaussian表示的方法在Ego-Centric重建任务上相比于此前方法具有巨大优势,证明了本文方法的有效性。此外,同2D图像生成方法如MagicDrive结合,本文还可实现多模态控制的3D场景生成,为前馈式(feed-forward)的场景级3D生成开辟了一种可能性。

技术方案

1. 整体框架:
如图2所示,本文的整体框架由共享多视角图像特征的体积分支(Volume Builder)和像素分支(Pixel Decorator)构成,它们分别用来预测基于体素和像素的3D高斯球参数,并通过对齐融合重建完整的3D场景。以下是每个分支的具体方法介绍。

图2. Omni-Scene方法的总体框架

2. 体积分支(Volume Builder):
如图2(b)所示,体积分支采用稀疏的三平面(triplane)特征以节省计算开销,其通过三个平面的特征插值获取每个体素位置的特征,并预测以体素为锚点(anchor)的3D高斯球,以实现粗粒度的3D场景重建,描绘其大体结构。为了将2D图像特征转换到triplane,本文借鉴3D感知工作中常用的可变形注意力机制(Deformable Attention),从2个维度对triplane特征进行编码和增强。其一,为了将多视角2D图像特征升维至3D,本文先将triplane每个位置扩展成柱状空间体素,接着利用相机参数确定体素的3D坐标对应哪些2D图像坐标,并通过可变形注意力为每个体素抽取其空间上相关联的局部2D特征,以获得3D层面的特征编码。其二,为了促进triplane不同平面特征的对齐与融合,本文将每个平面所扩展的柱状体素投影到另外2个平面,并通过可变形注意力融合其相关联的另外2个平面上的局部3D特征,以实现3D层面的特征增强。以上两种可变形注意力机制的公式如下:

其中,CIDA和CPDA分别对应triplane到2D图像、triplane各平面之间的两种注意力操作。

3. 像素分支(Pixel Decorator):
如图2(c)所示,像素分支采用了多视角U-Net网络(Multi-View U-Net),并在网络的每一层施加多视角特征间的交叉注意力机制,以促进相邻视角间的信息交互。基于网络末端输出的多个视角的像素特征,可以预测每个视角的像素深度和对应的3D高斯球参数,其映射到3D空间后可实现细粒度的3D场景重建,用于为体积表示所重建的粗粒度场景补充外观细节。为了降低Ego-Centric场景下深度预测的难度,本文还提出用Metric3D-v2粗略预测像素深度,用于初始化3D高斯球的位置,发现其可提升像素分支的重建效果。上述基于像素到3D空间映射的3D高斯参数映射可由如下公式表示:

其代表根据深度将相机坐标沿像素的射线方向移动并施加offset偏移。

4. 不同表示间的互补机制(Volume-Pixel Collaboration):

本文的一个核心目标是促进上述两种表示的互补,考虑到两种表示的不同特性,本文提出了如图2所示的2个维度的设计。其一为Featrure Projection,为了促进两种表示在3D空间上的对齐,使得它们能够各自感知到另一种表示需要被补足的空间区域,本文提出将通过深度映射至3D空间的像素特征投影到triplane的各个平面上,以使得两种表示的特征在3D空间是互补对齐的。其二为Training Decomposition,考虑到体积表示长宽高受限的空间范围,其不适用于重建HWZ范围外的场景,本文提出基于像素表示所预测的深度,对本文的训练目标进行解耦。具体地,本文基于每个target视角所预测的深度将像素坐标投影到3D坐标,并将这些3D坐标中位于自车HWZ范围外的像素筛选出来,不计入损失函数的计算,使得体积表示可以专注于HWZ体积内的3D重建,并让像素表示来补充HWZ体积外的3D重建。因此,本文的总体损失函数如下:

其由full和volume两部分组成,以实现训练目标的解耦。

实验结果分析

本文基于nuScenes构建了一个Ego-Centric稀疏视角3D场景重建任务,并展开了实验,其包含135,941个训练场景和30,080测试场景。同时,本文还在RealEstate10K数据集上进行了实验,用于验证方法在Scene-Centric任务上的兼容性。从表1可以看出,本文方法在两个数据集的新视角合成和深度预测任务上的效果都显著优于此前基于像素表示的SOTA方法(包括:pixelSplat、MVSplat),验证了Omni-Scene方法的有效性。此外,表2的消融实验详细论证了本文各模块的性能增益,验证了本文各项设计的有效性。

表1. Omni-Scene方法与SOTA的对比

表2. Omni-Scene方法的消融实验

总体来说,基于6张Ego-Centric的环视多视角图像,本文的Omni-Scene方法可以在0.1秒内完成3D场景的重建。以下图3展示了我们在重建的3D场景中进行新视角合成的效果。

图3. Omni-Scene方法的新视角合成效果

此外,通过与自动驾驶domain的2D图像生成方法MagicDrive结合(即:先生成多视角2D图像,再重建3D场景),本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成,初步探索了场景级的前馈式(feed-forward)3D生成的可能性,拓宽了本文方法的应用场景。

图4. Omni-Scene方法的3D场景生成效果

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论