原文链接:https://mp.weixin.qq.com/s/j_B_6pNfiwo28XV17PkNAA
前馈式3D重建技术在自动驾驶领域发展很迅速,但现有工作在自动驾驶环视场景中的表现不佳,这是由于稀疏非重叠的相机视角以及复杂场景动态性双重buff导致。
针对这个问题,港中文(深圳)、滴滴和港大的团队提出UniSplat — 一种通用feed-forward框架,通过统一的潜在时空融合实现鲁棒的动态场景重建。该框架构建3D潜在Scaffold(一种结构化表示),利用预训练基础模型捕捉场景的几何和语义上下文。
- 为有效整合跨空间视角与跨时间帧的信息,引入了高效的融合机制,直接在3DScaffold内运作,实现一致的时空对齐。
- 为确保重建结果的完整性和细节丰富度,设计了双分支解码器,通过结合点锚定细化与体素化生成,从融合后的Scaffold中生成动态感知高斯体,并维护静态高斯体的持久化记忆,以实现超出当前相机覆盖范围的流式场景补全。
实验表明,UniSplat的新视角合成能不还不错,即使对于原始相机覆盖范围外的视角,也能提供鲁棒且高质量的渲染结果。
- 论文标题:UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction
- 论文链接:https://arxiv.org/abs/2511.04595
一、背景回顾
从城区驾驶场景中重建3D场景已成为自动驾驶系统的核心能力,支撑着仿真、场景理解和long-horizon规划等关键任务。近年来,3D高斯溅射技术取得显著进展,展现出令人印象深刻的渲染效率和保真度。然而,这些方法通常假设输入图像间存在大量视角重叠,且依赖逐场景优化,这限制了它们在实时驾驶场景中的适用性。
为实现更快的推理速度,前馈式重建方法应运而生,能够通过单次前向传播合成新视角。这类方法通常通过交叉注意力或构建多视图立体(MVS)cost volume,在图像域内编码视图间相关性,随后从融合后的特征中解码出高斯基元。值得注意的是,融合策略的选择至关重要,它会显著影响最终的渲染质量。EvolSplat利用3D-CNN整合前视单目序列的多帧几何信息,但忽略了语义融合且缺乏动态处理机制。与此同时,Omni-Scene采用三平面Transformer实现强大的多视图融合,但未纳入时间聚合,且受限于粗粒度的3D细节。尽管取得了这些进展,城市驾驶场景中的鲁棒重建仍面临挑战,尤其是在维持随时间平滑演化的统一潜在表示、处理部分观测、遮挡和动态运动,以及从稀疏输入中高效生成高保真高斯体等方面。
为解决这些挑战,本文提出UniSplat,一种基于多相机视频的动态场景建模通用前馈框架。UniSplat的核心见解是构建统一的3D Scaffold,融合多视图空间信息与多帧时间信息。该Scaffold支持3D空间中的几何和语义上下文交互,助力高效的长期信息整合与动态建模,并实现高斯基元的有效解码。通过保留和融合关键信息,它确保了场景重建在时间上的连贯性和一致性。
具体而言,UniSplat框架遵循三阶段流程。首先,我们将多视图图像输入预训练的几何基础模型和视觉基础模型,构建以自车为中心的3D Scaffold,将几何结构和语义线索编码为稀疏3D特征体。其次,进行时空融合:在当前帧的Scaffold内整合多视图空间上下文,并通过自车运动补偿将历史Scaffold融合到当前Scaffold中,得到时间增强的场景表示。最后通过双分支策略将融合后的Scaffold解码为高斯体:一个分支在稀疏点位置预测高斯体以获取细粒度细节,另一个分支直接从体素中心生成新的高斯体,以补充点锚定预测的不足。每个高斯体都被分配动态概率分数以识别静态内容,使我们能够跨帧维护静态高斯体的记忆库,实现长期场景补全。
本文在Waymo Open数据集和NuScenes数据集上对方法进行评估,这两个数据集包含动态街道场景,具有复杂的环境条件和有限的多相机图像重叠。实验结果表明,我们的方法在输入视图重建和新视角合成任务中,在两个数据集上均达到当前最优性能。值得注意的是,借助时间记忆,我们的模型在合成原始相机覆盖范围外的视角时,展现出强大的鲁棒性和卓越的渲染质量。
综上所述,我们的主要贡献如下:
- 提出UniSplat,一种基于统一3D潜在Scaffold、从多相机视频中重建动态场景的新型前馈框架。
- 设计新型的基于Scaffold的融合机制,支持统一的时空对齐和渐进式场景记忆整合。
- 提出带动态感知过滤的双分支高斯生成机制,实现细粒度且完整的渲染以及基于记忆的场景补全。
- 在两个大规模驾驶数据集上的综合实验表明,UniSplat显著优于当前最优的前馈重建方法,对观测相机视锥外的挑战性视角具有泛化能力。
二、UniSplat详解
UniSplat 针对多相机帧的连续流进行处理,维持场景随时间演化的统一 3D 潜在表示。如原文图 1 所示,每个时间步从多视图图像的 3D scaffold构建开始,生成编码场景几何与语义的 3D 体素(潜在scaffold);随后执行统一时空融合,整合当前Scaffold内的跨视图信息与前一时间步的潜在Scaffold;最后通过双分支解码器实现动态感知高斯生成,同时维护静态高斯的时间记忆库,以解决稀疏相机输入和有限视场导致的场景覆盖不完整问题。

预备知识

3D Scaffold构建

统一时空Scaffold融合

动态感知高斯生成


训练目标

实验结果分析
主要结果
Waymo 数据集结果:我们将 UniSplat 与当前主流的稀疏视角重建方法进行对比,包括 MVSplat、DepthSplat、EvolSplat和 DriveRecon。对于通用方法 MVSplat 和 DepthSplat,本文基于其官方代码库在 Waymo Open 数据集上重新训练;对于面向驾驶场景的方法 EvolSplat 和 DriveRecon,我们在验证场景上评估,并调整其输出分辨率以确保对比公平性。定量结果汇总于表 1,UniSplat 在输入视图重建和新视角合成两项任务的所有指标上,均持续优于所有基线方法。定性对比结果如图 2所示:MVSplat 和 DepthSplat 难以重建精细几何细节,且在相邻相机重叠区域存在明显伪影,而我们的方法能生成视觉连贯、质量更高的结果。此外,我们还报告了一个优化变体(标记为†)——该变体采用基于 LiDAR 点云计算的最优单相机尺度,进一步提升了性能。


nuScenes 数据集结果:我们在 nuScenes 基准测试上评估 UniSplat。如表 2所示,UniSplat 性能超过此前的最优方法 Omni-Scene,PSNR达到 25.37 dB,较后者提升 1.10 dB。
动态感知高斯补全结果:UniSplat 可预测每个高斯基元的动态属性,无需人工标注即可在推理阶段实现场景的渐进式构建。如图 3所示:上方为无动态过滤的基线方法结果,由于动态目标的累积,出现了“重影伪影”;而我们的方法在补全缺失区域的同时,有效抑制了此类伪影。下方结果表明,UniSplat 成功补全了两种典型场景下的未观测区域:一是 Waymo 5 相机系统无法覆盖 360° 视场的区域,二是跨相机的视野盲区。此外,模型能清晰区分动态行驶车辆与静止停放车辆,证明其可有效利用时间上下文信息。

消融实验
为验证框架各组件的有效性,我们在 Waymo Open 数据集上开展消融实验,重点分析新视角合成任务的性能。为提升效率,我们对每个序列的前 20% 帧进行采样,并对 point map 采用最优尺度对齐以加速模型收敛。所有模型均在 16 块 GPU 上训练 20 个 epoch,批次大小为 32。


结论
本文提出 UniSplat——一种用于动态驾驶场景重建与新视角合成的统一前馈框架。其核心贡献在于引入“3D 潜在Scaffold”,可无缝整合多相机视频的时空融合信息。该Scaffold通过利用基础模型,编码鲁棒的几何与语义先验,支持在 3D 空间内直接进行高效融合。我们进一步设计了双分支高斯解码器,从Scaffold中生成动态感知基元,并结合流式记忆机制随时间累积静态场景内容,实现长期场景补全。
在 Waymo 和 nuScenes 数据集上的大量实验表明:UniSplat 不仅在标准设置下达到当前最优性能,还对原始相机覆盖范围外的挑战性视角具有出色的泛化能力。我们认为,该框架为未来动态场景理解、交互式 4D 内容创建及终身世界建模等研究方向,提供了极具潜力的基础。

发表回复