2025-12-16 SOTA！FaithFusion：即插即用的生成重建统一框架（百度&南大）

原文链接：https://mp.weixin.qq.com/s/_gHxK_MDQDifnfylK6fmQA

破解核心痛点：生成式重建中的几何一致性与创造性平衡

无论是物体级还是场景级三维任务，“重建” 与 “生成” 的融合始终面临核心矛盾：如何兼顾生成的创造性与多样性，同时保障几何重建对原始观测的保真度。在三维场景重建领域，3D 高斯泼溅（3DGS）的高保真几何能力与扩散模型（Diffusion）的外观生成能力结合，已是新视角合成的主流路径，但因缺乏像素级、3D 空间一致的编辑准则，常出现过修复（篡改可信区域）和几何漂移（未观测区域失真）问题。

为缓解这一矛盾，现有方法多采用 “外部约束” 范式：要么从生成侧引入 LiDAR、HDMap 等外部先验限制 Diffusion 自由度，要么改造 3DGS 重建侧强化保真。但这类方案依赖额外输入或定制化改造，既抬高落地成本，也限制了通用性。

FaithFusion 的核心突破的是跳出 “外部依赖”，从 3DGS 模型自身挖掘内在指导信号。其摒弃经验性启发式规则，引入像素级预期信息增益（EIG）这一信息论指标作为融合策略 ——EIG 量化 “对 3DGS 像素进行 Diffusion 编辑后，能带来的几何 / 外观信息价值增量”，将人工经验决策转化为可计算的客观标准。

在框架中，EIG 扮演 “精准指挥家” 角色，通过双向加权闭环实现 “生成 / 保持” 精准决策：生成侧以 EIG 为空间先验，抑制低增益可信区域编辑、保留几何，同时引导 Diffusion 聚焦高增益缺陷区域进行创造性修复；重建侧将 EIG 作为像素级损失权重，降低低增益区域监督强度，让 3DGS 优先吸收高价值修复信息，避免被噪声干扰。这一策略不仅解决了 “保真 – 创造” 平衡问题，更让 FaithFusion 成为无需额外条件、即插即用的通用框架 —— 无需改造 3DGS 即可适配多维度任务，性能比肩甚至超越依赖外部先验的复杂方法，且在 Waymo 街景外扩任务中实现 SOTA 性能。

从更广视角看，FaithFusion 的思路可迁移至图像 / 视频修复、Text-to-3D/4D 等需 “保持观测稳定 + 引入生成能力” 的场景，尤其适用于三维目标不可见区域补全、场景迭代外扩等需求。目前其代码已完全开源，可直接适配各类三维任务。

论文名称： FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain

论文地址： https://arxiv.org/abs/2511.21113

项目主页： https://shalfun.github.io/faithfusion

代码链接： https://github.com/wangyuanbiubiubiu/FaithFusion

FaithFusion的核心技术：EIG驱动的三阶段执行框架

FaithFusion 的关键突破在于将抽象的像素级预期信息增益（EIG）概念转化为可实际运行的技术架构——通过 EIGent 模块和渐进式训练循环，将信息论的理论指导转化为“精准修复、保真重建”的实际效果。

预期信息增益 (EIG)：从理论到应用的三层递进推导

EIG 是整个框架的核心指导机制，其核心作用是精准评估每个像素的 3DGS 渲染可信度与修复必要性——本质上是量化“Diffusion 修复结果能为 3DGS 模型参数减少多少不确定性”，为“应该生成新内容还是保留原有信息”提供理论依据。整个推导过程严格遵循补充材料 A.3 的逻辑体系，通过三个关键步骤完成从理论到实际应用的闭环：

核心挑战：传统 EIG 依赖 GT 导致无法实际应用

在原始定义中，EIG 的计算必须依赖真实观测数据（GT） 来衡量“新观测带来的不确定性降低程度”——但在新视角合成场景中，GT 数据是完全不可获取的（我们的目标正是生成这些未观测的视角）。这是我们需要解决的首要技术障碍。

第一步推导：GT 替代方案的构建

第二步推导：熵值的工程化近似

第三步推导：像素级计算的实现

这一步直接实现了“精准到像素”的指导机制！我们首先利用 log-det 不等式，将 EIG 近似为“参数协方差矩阵与观测 Fisher 信息矩阵乘积的迹”，大幅降低了计算复杂度；然后借助 Fisher 信息的可加性原理，将全局 EIG 分解为每个像素的局部贡献——沿着每条渲染光线累积 3D 高斯基元的 Fisher 信息，使每个像素的 EIG 值都能精准对应其在 3D 几何层面的不确定性，最终得到像素级的计算公式:

实验验证：EIG 替代方案与重建质量高度相关

理论分析再完善，实验验证才是最有力的证明！下图清晰地展示了：EIG 与新视角合成质量（PSNR）之间存在高度相关性，高 EIG 值对应着伪影、未观测区域等低质量区域，而低 EIG 值则对应着高置信度的清晰区域；当我们掩盖掉高 EIG 区域的像素后，图像质量得到了显著提升！这双重验证结果表明，我们提出的 EIG 替代方案完全有效，无需 GT 数据也能精准捕捉 3DGS 重建中的缺陷，成为“哪些区域需要修复、哪些区域应该保留”的智能决策依据！

EIGent 模块：双分支智能修复引擎

EIGent 是实现 EIG 策略的“技术载体”，是一个专门为像素级引导设计的双分支神经网络架构。它不只是一个简单的修复工具，而是一个受 EIG 信号直接调控的“智能修复系统”，旨在充分利用 Video DiT 强大生成能力的同时，通过 EIG 信号精确界定生成边界，避免无意义的“凭空捏造”。

核心工作原理：输入 3DGS 渲染图像和对应的 EIG 图，动态生成编辑掩码 M——高 EIG 区域被标记为可编辑区域，低 EIG 区域则被标记为保护区域，从根本上杜绝了过修复问题；
- EIGent 内部配备了一个轻量级的上下文编码器（Context Encoder）用于提取稳定的背景特征。EIG 图在此处被转化为二值掩码 M，用于隔离高不确定性区域，防止其影响稳定的背景上下文。这一设计确保模型仅在“真正需要修复”的区域发挥创造力，而在“信息可靠”的区域严格保持原有内容。
双分支结构设计：
- 为了弥补 Video DiT 在精细纹理生成上的不足，EIGent 引入了 DIFIX3D+ 提供的潜在特征作为辅助修复线索。这相当于为生成模型配备了一个“细节增强器”，确保生成的车道线、路面纹理等细微结构具有高度的真实感。
- 该分支采用预训练的 Video DiT 作为主干网络，负责处理高层语义信息和时空连贯性。它通过交叉注意力机制接收来自 Context 分支的特征输入，确保生成的内容在时间维度上平滑过渡，有效解决了传统单帧修复方法容易导致的画面闪烁问题。
1. 粗粒度修复分支（Video DiT）：确保连续帧之间的时空一致性，避免修复结果出现跳变；
2. 细粒度增强分支（DIFIX3D+）：提升单帧图像的感知质量，细化纹理细节；
技术优势：无需任何额外的先验信息，仅凭 EIG 替代信号就能实现精准的“修复/保留”决策。

三阶段渐进式训练循环：安全的知识融合机制

SOTA 性能验证

为了验证 FaithFusion 的硬实力，作者在 Waymo Open Dataset 上进行了严苛的测试，特别是在极具挑战性的 6米大偏移变道（Lane Shift @ 6m）任务上进行了全面对比。

定量指标：实验对比了包括 OmniRe、FreeVS 以及最新的融合方法 ReconDreamer++、DIFIX3D+。如Table 1所示：
- FID (图像质量)：在 6m 偏移下，FaithFusion 的 FID 降至 107.47 ，比次优的 DIFIX3D+ (111.92) 和 ReconDreamer++ (115+) 都有显著下降。这说明生成的图像更逼真、伪影更少。
- NTA-IoU (动态物体一致性) & NTL-IoU (车道线几何一致性)：这两项指标分别达到了 0.517 和 55.78 ，均达到 SOTA 水平。这证明 FaithFusion 不仅“画得好看”，而且“位置画得准”，没有发生车辆漂移或车道线扭曲。

定性对比：在 6m 变道这种极端视角下，现有方法往往会出现严重的几何崩坏。从可视化结果可以看出：
- ReconDreamer++ 等方法：出现了明显的地面弯曲（Ground Bending）、建筑物歪斜以及语义不一致（如路面莫名出现白色伪影）。
- FaithFusion：引入 EIG 引导后，低质量的过修复被显著抑制；最终版本实现了全局的几何稳定性和纹理保真，能够生成清晰的车道线和正确的路沿结构，彻底解决了“由于生成而导致的几何漂移”问题。