2026-03-19 复旦&引望最新！DynamicVGGT：面向自动驾驶的统一4D动态场景重建框架（CVPR’26）

原文链接：https://mp.weixin.qq.com/s/pSy10dmP9G6BaadYh6OPZw

近年来，3D foundation model 在几何感知和静态场景重建上不断突破，但一到自动驾驶这种真实动态环境，问题就没那么简单了。车辆在动、行人在动、相机也在动，模型不仅要看清“场景长什么样”，还要回答“场景接下来会怎么变”。如何让 feed-forward 3D 模型真正具备动态建模能力，正在成为 4D 场景重建里的关键问题。

近年来，3D foundation model 在几何感知和静态场景重建上屡破天花板——但一旦迈入自动驾驶的真实动态世界，事情就没那么轻松了。想象一下：车辆在穿行，行人在横过马路，相机本身也在运动。模型不仅要回答”眼前的场景长什么样”，还得理解”场景接下来会怎么变”。如何让 feed-forward 3D 模型真正跨入动态建模的门槛，已经成为 4D 场景重建领域的核心挑战。

复旦大学和引望智能2030Lab的研究团队提出，把 VGGT 从偏静态的 3D 感知框架，扩展成一个面向自动驾驶场景的统一 4D 动态重建框架。对此，我们并没有推倒重来，而是在现有几何 backbone 基础上，补上“时间”和“运动”这两块最关键的能力。

复旦大学与引望智能2030Lab的研究团队给出了一个清晰的回答：不推倒重来，而是”精准补课”。他们在 VGGT 原有的强大几何 backbone 之上，补上了两块最关键的能力拼图——”时间”和”运动”，由此构建出面向自动驾驶的统一 4D 动态重建框架 DynamicVGGT。

论文标题：DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

论文链接：https://arxiv.org/abs/2603.08254

TL;DR：

DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础，用新增的 MTA blocks 学习动态场景运动，最后分别通过设计两种任务：未来点图预测与动态 4D 场景重建优化统一的动态点图，增强对动态场景下模型对几何预测的能力

当前问题：

现有 feed-forward 3D 模型在静态场景几何重建上已经很强，但一到自动驾驶这种真实动态环境，就很难同时维持几何精度和时间一致性。原因有两层。一层是场景本身动态复杂，车、人、相机都在动，还伴随长时间依赖；另一层是自动驾驶数据本身往往大规模、高噪声、深度稀疏，直接训练很容易把原本在静态数据上学到的稠密几何能力拉垮。为此我们提出：做一个统一的、前馈式的 4D 场景重建框架，在不依赖显式相机外参对齐的前提下，同时建模几何和运动。

从定位上讲，DynamicVGGT 不是改变原有的VGGT范式，而是建立在 VGGT 上，把它从“静态 3D 感知”扩展成“动态 4D 重建”。我们认为，VGGT 原本的几何 backbone 已经很强，问题不在于缺几何能力，而在于缺一个统一的动态表示和配套的时序建模机制。所以整篇论文的主线其实只有一句话：以 Dynamic Point Map 为统一表示，在 backbone 中补上时序推理，在输出端补上动态几何细化。

直面问题：静态强不等于动态强

现有的 feed-forward 3D 模型在静态场景上已经足够出色，但换到自动驾驶场景，几何精度和时间一致性往往难以兼得。原因来自两个层面：

第一层是场景本身的复杂性。车辆、行人、相机三者同时在运动，叠加长距离的时间依赖，仅靠单帧几何推理远远不够。
第二层是数据层面的先天缺陷。自动驾驶数据规模大、噪声高、深度标注稀疏——直接在这些数据上训练，极易”拖垮”模型在静态数据上辛苦学来的稠密几何能力。

面对这两个瓶颈，DynamicVGGT 的定位非常明确：不是替换 VGGT，而是站在它肩膀上——把”静态 3D 感知”平滑地扩展为”动态 4D 重建”，同时在不依赖显式相机外参对齐的前提下，统一建模几何与运动。

方法

DynamicVGGT framework

们给定一个多视角 clip，直接同时预测当前时刻和未来时刻的 point map，并且二者都在这个共享学习坐标空间里表达。这样一来，模型就能通过当前点图和未来点图之间的差分，隐式学到点的运动。

在这个统一表示上，论文设计了两类互补任务。第一类是 Future Point Head，对未来点图进行预测；第二类是 Dynamic 3D Gaussian Splatting Head，对动态几何做更显式的细化。我们把这两者明确看成互补关系：前者偏“隐式运动学习”，后者偏“显式运动监督”。这也是论文方法设计中最清楚的一点，不是只用一种动态信号，而是同时从 point-map 层和 Gaussian primitive 层去约束动态。

这张图就是 DynamicVGGT 的整体训练框架图。可以把它理解成一条很清晰的流水线：

输入多视角图像序列 → 提取空间几何特征 → 建模时序运动 → 分两条头分别做未来点图预测和动态高斯重建。

最左边输入的是一个多视角图像序列，这里画成了 {V1, V2, V3}。每个 Vi 可以理解为同一时刻或相邻时刻的不同相机视角图像。

第一步是 DINOv2 Backbone。这部分负责把原始图像编码成 token 表示。输出两类 token：一类是 patch tokens，表示图像局部区域的视觉特征；另一类是 camera tokens，表示和相机相关的全局信息。

接着进入中间的 Alternating-Attention (AA) blocks。这部分继承自 VGGT，本质上还是原始 backbone 里最重要的空间几何建模模块。它的作用是对 patch tokens 和 camera tokens 做帧内建模，让模型先学会“这一帧里空间结构是什么样的”。所以 AA blocks 主要负责的是 intra-frame spatial geometry，也就是单帧内部的几何关系，而不是时间上的运动关系。

和 AA blocks 并行的，就是图中下面这条 Motion-aware Temporal Attention (MTA) blocks。这是 DynamicVGGT 最关键的新加模块之一。它的输入除了来自上面空间分支的 patch tokens，还额外引入了图中蓝色的小块 motion tokens。这些 motion tokens 是可学习参数，专门用来编码时间先验和跨帧运动线索。MTA 的作用，就是沿时间维去看不同帧之间的关系，建模 inter-frame temporal dependencies。换句话说，AA 负责回答“每帧长什么样”，MTA 负责回答“相邻帧之间怎么变化”。

经过 MTA 之后，模型得到的是图中右边标出来的 Temporal Features TA。这部分就是“已经融合了时间信息”的特征，可以理解成动态增强后的表示。论文后面几乎所有动态任务，都是基于这个 TA 来做的。

然后图右边分成两条任务头。

上面这一条是 DGSHead，也就是 Dynamic 3D Gaussian Head。它负责做动态 3D Gaussian Splatting 重建。你可以把它理解成：模型不只是恢复点图，还要把场景表示成可随时间变化的 3D Gaussian primitives，并且显式预测它们的运动。这个 head 更偏向显式动态几何建模，最后服务于动态场景重建和 novel view synthesis。

下面这一条是 FPH（Future Point Head）。它负责从当前时刻的 temporal feature 直接预测未来时刻的 point map。也就是说，它让模型学习“下一帧的三维点图应该长什么样”。这个任务本质上是在做 future point prediction，通过预测未来点图，让模型隐式学会点级运动。

所以，这两条头虽然都和动态有关，但分工不一样：

DGSHead 更偏：显式运动建模 + 动态高斯重建
FPH 更偏：隐式运动学习 + 未来几何预测

DynamicVGGT 的解决思路是：让模型同时预测当前帧和未来帧的点图，并在同一参考坐标系下对齐。这样，模型可以通过时序对应关系，隐式地学会”物体是怎么动的”，而无需任何显式的运动标注。

更关键的是，整个过程无需相机外参对齐，极大降低了真实部署的门槛。

三大核心模块：从”感知当下”到”理解时序”

为了实现这一目标，论文设计了三个紧密协作的关键模块：

运动感知时序注意力（MTA）：在标准的多视角 Transformer 中引入时序维度，让模型不只”看当前帧”，而是学会跨帧的运动连续性。就像人类看视频时会自然地追踪运动物体，而非每帧独立理解。

未来点图预测头（Future Point Head）：在联合训练的框架下，预测场景中每个点在未来时刻的位置，为后续的动态高斯优化提供运动先验。

动态3D高斯泼溅渲染头（Dynamic 3D Gaussian Splatting Head）：在上述运动表征的基础上，引入可学习的运动 token，通过场景流监督来预测每个高斯球的运动速度，并以此持续优化几何质量。最终实现高质量的新视角合成，哪怕是在有大量运动物体的驾驶场景中。

实验结果

论文在两大权威自动驾驶数据集上进行了全面评测：

场景重建精度：在 Accuracy、Completeness、Normal Consistency 等核心指标上，DynamicVGGT 显著优于此前所有对比方法；

新视角合成（NVS）：给定稀疏输入帧（如第0、2、4帧），模型不仅能重建完整场景，还能直接合成第5帧的真实感渲染结果，时序一致性出色；

多任务输出丰富：除了场景重建，模型同时输出可用的深度图、相机位姿估计，一个前馈网络搞定多个自动驾驶感知子任务。

DynamicVGGT 在 point map reconstruction 上比 VGGT 和 StreamVGGT 更好。KITTI 单目三帧设置下，它达到 0.901 的 Accuracy 和 0.939 的 Normal Consistency；Waymo 三相机设置下，它达到 4.021 的 Accuracy 和 0.603 的 Normal Consistency。

这个模型在深度估计上也表现很强，说明动态建模并没有破坏几何 backbone，反而增强了它的泛化能力。KITTI 单目 Abs Rel 0.070，NYU-v2 单目 Abs Rel 0.064、δ < 1.25 准确率 0.943，KITTI MVS Abs Rel 0.051、准确率 0.976，整体优于 VGGT 和 StreamVGGT。这个结果其实挺说明问题：DynamicVGGT 不是为了动态任务牺牲几何，而是在更强时间建模下把几何也一起做稳了。

消融实验

我们以 vanilla VGGT 为基线，先加 temporal attention 和 FPH，在 KITTI 上 Accuracy 从 1.489 降到 0.927，Completeness 从 0.690 降到 0.600；再加 DGSHead，Accuracy 进一步到 0.901，Normal Consistency 到 0.939。Waymo 上完整模型也达到最优的 4.021 Accuracy error 和 0.603 NC。这个消融说明两件事：一是“时间建模”本身已经带来很大收益；二是“动态 Gaussian 细化”会进一步把几何变得更平滑、更完整、更一致。也就是说，这不是单个模块偶然奏效，而是整条 DPM + MTA + FPH + DGSHead 的链条都在起作用。

可视化

可视化结果进一步支撑了这个结论。论文展示了单帧、短时多帧、长时序三种设置下的点图重建，结论都是 DynamicVGGT 比 VGGT 更稠密、更平滑，而且在大视角变化、下坡路、开阔路口这些难场景下，仍然能保持稳定的全局几何与点级运动轨迹。

总结

DynamicVGGT 的核心不是简单给 VGGT 加时序模块，而是围绕统一的 Dynamic Point Map 表示，把动态建模拆成三层：

MTA 在特征层建模时间依赖
FPH 在点图层隐式学习跨帧运动
DGSHead 在 Gaussian primitive 层显式学习速度并细化动态几何

再通过合成到真实的两阶段训练，兼顾几何先验、运动连续性和真实驾驶场景适应性，最终把静态 3D 感知推进成统一的 feed-forward 4D 动态场景重建框架。

2026-03-19 复旦&引望最新！DynamicVGGT：面向自动驾驶的统一4D动态场景重建框架（CVPR’26）

发表回复取消回复

Categories

Archives

2026-03-19 复旦&引望最新！DynamicVGGT：面向自动驾驶的统一4D动态场景重建框架（CVPR’26）

发表回复 取消回复

Categories

Archives

发表回复取消回复