2025-11-10 滴滴和港中文最新的前馈3D重建算法UniSplat！

原文链接：https://mp.weixin.qq.com/s/j_B_6pNfiwo28XV17PkNAA

前馈式3D重建技术在自动驾驶领域发展很迅速，但现有工作在自动驾驶环视场景中的表现不佳，这是由于稀疏非重叠的相机视角以及复杂场景动态性双重buff导致。

针对这个问题，港中文（深圳）、滴滴和港大的团队提出UniSplat — 一种通用feed-forward框架，通过统一的潜在时空融合实现鲁棒的动态场景重建。该框架构建3D潜在Scaffold（一种结构化表示），利用预训练基础模型捕捉场景的几何和语义上下文。

为有效整合跨空间视角与跨时间帧的信息，引入了高效的融合机制，直接在3DScaffold内运作，实现一致的时空对齐。
为确保重建结果的完整性和细节丰富度，设计了双分支解码器，通过结合点锚定细化与体素化生成，从融合后的Scaffold中生成动态感知高斯体，并维护静态高斯体的持久化记忆，以实现超出当前相机覆盖范围的流式场景补全。

实验表明，UniSplat的新视角合成能不还不错，即使对于原始相机覆盖范围外的视角，也能提供鲁棒且高质量的渲染结果。

论文标题：UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction
论文链接：https://arxiv.org/abs/2511.04595

一、背景回顾

从城区驾驶场景中重建3D场景已成为自动驾驶系统的核心能力，支撑着仿真、场景理解和long-horizon规划等关键任务。近年来，3D高斯溅射技术取得显著进展，展现出令人印象深刻的渲染效率和保真度。然而，这些方法通常假设输入图像间存在大量视角重叠，且依赖逐场景优化，这限制了它们在实时驾驶场景中的适用性。

为实现更快的推理速度，前馈式重建方法应运而生，能够通过单次前向传播合成新视角。这类方法通常通过交叉注意力或构建多视图立体（MVS）cost volume，在图像域内编码视图间相关性，随后从融合后的特征中解码出高斯基元。值得注意的是，融合策略的选择至关重要，它会显著影响最终的渲染质量。EvolSplat利用3D-CNN整合前视单目序列的多帧几何信息，但忽略了语义融合且缺乏动态处理机制。与此同时，Omni-Scene采用三平面Transformer实现强大的多视图融合，但未纳入时间聚合，且受限于粗粒度的3D细节。尽管取得了这些进展，城市驾驶场景中的鲁棒重建仍面临挑战，尤其是在维持随时间平滑演化的统一潜在表示、处理部分观测、遮挡和动态运动，以及从稀疏输入中高效生成高保真高斯体等方面。

为解决这些挑战，本文提出UniSplat，一种基于多相机视频的动态场景建模通用前馈框架。UniSplat的核心见解是构建统一的3D Scaffold，融合多视图空间信息与多帧时间信息。该Scaffold支持3D空间中的几何和语义上下文交互，助力高效的长期信息整合与动态建模，并实现高斯基元的有效解码。通过保留和融合关键信息，它确保了场景重建在时间上的连贯性和一致性。

具体而言，UniSplat框架遵循三阶段流程。首先，我们将多视图图像输入预训练的几何基础模型和视觉基础模型，构建以自车为中心的3D Scaffold，将几何结构和语义线索编码为稀疏3D特征体。其次，进行时空融合：在当前帧的Scaffold内整合多视图空间上下文，并通过自车运动补偿将历史Scaffold融合到当前Scaffold中，得到时间增强的场景表示。最后通过双分支策略将融合后的Scaffold解码为高斯体：一个分支在稀疏点位置预测高斯体以获取细粒度细节，另一个分支直接从体素中心生成新的高斯体，以补充点锚定预测的不足。每个高斯体都被分配动态概率分数以识别静态内容，使我们能够跨帧维护静态高斯体的记忆库，实现长期场景补全。

本文在Waymo Open数据集和NuScenes数据集上对方法进行评估，这两个数据集包含动态街道场景，具有复杂的环境条件和有限的多相机图像重叠。实验结果表明，我们的方法在输入视图重建和新视角合成任务中，在两个数据集上均达到当前最优性能。值得注意的是，借助时间记忆，我们的模型在合成原始相机覆盖范围外的视角时，展现出强大的鲁棒性和卓越的渲染质量。

综上所述，我们的主要贡献如下：

提出UniSplat，一种基于统一3D潜在Scaffold、从多相机视频中重建动态场景的新型前馈框架。
设计新型的基于Scaffold的融合机制，支持统一的时空对齐和渐进式场景记忆整合。
提出带动态感知过滤的双分支高斯生成机制，实现细粒度且完整的渲染以及基于记忆的场景补全。
在两个大规模驾驶数据集上的综合实验表明，UniSplat显著优于当前最优的前馈重建方法，对观测相机视锥外的挑战性视角具有泛化能力。

二、UniSplat详解

UniSplat 针对多相机帧的连续流进行处理，维持场景随时间演化的统一 3D 潜在表示。如原文图 1 所示，每个时间步从多视图图像的 3D scaffold构建开始，生成编码场景几何与语义的 3D 体素（潜在scaffold）；随后执行统一时空融合，整合当前Scaffold内的跨视图信息与前一时间步的潜在Scaffold；最后通过双分支解码器实现动态感知高斯生成，同时维护静态高斯的时间记忆库，以解决稀疏相机输入和有限视场导致的场景覆盖不完整问题。

预备知识

3D Scaffold构建

统一时空Scaffold融合

动态感知高斯生成

训练目标

实验结果分析

主要结果

Waymo 数据集结果：我们将 UniSplat 与当前主流的稀疏视角重建方法进行对比，包括 MVSplat、DepthSplat、EvolSplat和 DriveRecon。对于通用方法 MVSplat 和 DepthSplat，本文基于其官方代码库在 Waymo Open 数据集上重新训练；对于面向驾驶场景的方法 EvolSplat 和 DriveRecon，我们在验证场景上评估，并调整其输出分辨率以确保对比公平性。定量结果汇总于表 1，UniSplat 在输入视图重建和新视角合成两项任务的所有指标上，均持续优于所有基线方法。定性对比结果如图 2所示：MVSplat 和 DepthSplat 难以重建精细几何细节，且在相邻相机重叠区域存在明显伪影，而我们的方法能生成视觉连贯、质量更高的结果。此外，我们还报告了一个优化变体（标记为†）——该变体采用基于 LiDAR 点云计算的最优单相机尺度，进一步提升了性能。

nuScenes 数据集结果：我们在 nuScenes 基准测试上评估 UniSplat。如表 2所示，UniSplat 性能超过此前的最优方法 Omni-Scene，PSNR达到 25.37 dB，较后者提升 1.10 dB。

动态感知高斯补全结果：UniSplat 可预测每个高斯基元的动态属性，无需人工标注即可在推理阶段实现场景的渐进式构建。如图 3所示：上方为无动态过滤的基线方法结果，由于动态目标的累积，出现了“重影伪影”；而我们的方法在补全缺失区域的同时，有效抑制了此类伪影。下方结果表明，UniSplat 成功补全了两种典型场景下的未观测区域：一是 Waymo 5 相机系统无法覆盖 360° 视场的区域，二是跨相机的视野盲区。此外，模型能清晰区分动态行驶车辆与静止停放车辆，证明其可有效利用时间上下文信息。

消融实验

为验证框架各组件的有效性，我们在 Waymo Open 数据集上开展消融实验，重点分析新视角合成任务的性能。为提升效率，我们对每个序列的前 20% 帧进行采样，并对 point map 采用最优尺度对齐以加速模型收敛。所有模型均在 16 块 GPU 上训练 20 个 epoch，批次大小为 32。

结论

本文提出 UniSplat——一种用于动态驾驶场景重建与新视角合成的统一前馈框架。其核心贡献在于引入“3D 潜在Scaffold”，可无缝整合多相机视频的时空融合信息。该Scaffold通过利用基础模型，编码鲁棒的几何与语义先验，支持在 3D 空间内直接进行高效融合。我们进一步设计了双分支高斯解码器，从Scaffold中生成动态感知基元，并结合流式记忆机制随时间累积静态场景内容，实现长期场景补全。

在 Waymo 和 nuScenes 数据集上的大量实验表明：UniSplat 不仅在标准设置下达到当前最优性能，还对原始相机覆盖范围外的挑战性视角具有出色的泛化能力。我们认为，该框架为未来动态场景理解、交互式 4D 内容创建及终身世界建模等研究方向，提供了极具潜力的基础。

2025-11-10 滴滴和港中文最新的前馈3D重建算法UniSplat！

发表回复取消回复

Categories

Archives

2025-11-10 滴滴和港中文最新的前馈3D重建算法UniSplat！

发表回复 取消回复

Categories

Archives

发表回复取消回复