原文链接:https://mp.weixin.qq.com/s/pSy10dmP9G6BaadYh6OPZw
近年来,3D foundation model 在几何感知和静态场景重建上不断突破,但一到自动驾驶这种真实动态环境,问题就没那么简单了。车辆在动、行人在动、相机也在动,模型不仅要看清“场景长什么样”,还要回答“场景接下来会怎么变”。如何让 feed-forward 3D 模型真正具备动态建模能力,正在成为 4D 场景重建里的关键问题。
近年来,3D foundation model 在几何感知和静态场景重建上屡破天花板——但一旦迈入自动驾驶的真实动态世界,事情就没那么轻松了。 想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。模型不仅要回答”眼前的场景长什么样”,还得理解”场景接下来会怎么变”。如何让 feed-forward 3D 模型真正跨入动态建模的门槛,已经成为 4D 场景重建领域的核心挑战。
复旦大学和引望智能2030Lab的研究团队提出,把 VGGT 从偏静态的 3D 感知框架,扩展成一个面向自动驾驶场景的统一 4D 动态重建框架。对此,我们并没有推倒重来,而是在现有几何 backbone 基础上,补上“时间”和“运动”这两块最关键的能力。
复旦大学与引望智能2030Lab的研究团队给出了一个清晰的回答:不推倒重来,而是”精准补课”。他们在 VGGT 原有的强大几何 backbone 之上,补上了两块最关键的能力拼图——”时间”和”运动”,由此构建出面向自动驾驶的统一 4D 动态重建框架 DynamicVGGT。

论文标题:DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving
论文链接:https://arxiv.org/abs/2603.08254
TL;DR:
DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力
当前问题:
现有 feed-forward 3D 模型在静态场景几何重建上已经很强,但一到自动驾驶这种真实动态环境,就很难同时维持几何精度和时间一致性。原因有两层。一层是场景本身动态复杂,车、人、相机都在动,还伴随长时间依赖;另一层是自动驾驶数据本身往往大规模、高噪声、深度稀疏,直接训练很容易把原本在静态数据上学到的稠密几何能力拉垮。为此我们提出:做一个统一的、前馈式的 4D 场景重建框架,在不依赖显式相机外参对齐的前提下,同时建模几何和运动。
从定位上讲,DynamicVGGT 不是改变原有的VGGT范式,而是建立在 VGGT 上,把它从“静态 3D 感知”扩展成“动态 4D 重建”。我们认为,VGGT 原本的几何 backbone 已经很强,问题不在于缺几何能力,而在于缺一个统一的动态表示和配套的时序建模机制。所以整篇论文的主线其实只有一句话:以 Dynamic Point Map 为统一表示,在 backbone 中补上时序推理,在输出端补上动态几何细化。
直面问题:静态强不等于动态强
现有的 feed-forward 3D 模型在静态场景上已经足够出色,但换到自动驾驶场景,几何精度和时间一致性往往难以兼得。原因来自两个层面:
- 第一层是场景本身的复杂性。 车辆、行人、相机三者同时在运动,叠加长距离的时间依赖,仅靠单帧几何推理远远不够。
- 第二层是数据层面的先天缺陷。 自动驾驶数据规模大、噪声高、深度标注稀疏——直接在这些数据上训练,极易”拖垮”模型在静态数据上辛苦学来的稠密几何能力。
面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把”静态 3D 感知”平滑地扩展为”动态 4D 重建”,同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。

方法
DynamicVGGT framework
们给定一个多视角 clip,直接同时预测当前时刻和未来时刻的 point map,并且二者都在这个共享学习坐标空间里表达。这样一来,模型就能通过当前点图和未来点图之间的差分,隐式学到点的运动。
在这个统一表示上,论文设计了两类互补任务。第一类是 Future Point Head,对未来点图进行预测;第二类是 Dynamic 3D Gaussian Splatting Head,对动态几何做更显式的细化。我们把这两者明确看成互补关系:前者偏“隐式运动学习”,后者偏“显式运动监督”。这也是论文方法设计中最清楚的一点,不是只用一种动态信号,而是同时从 point-map 层和 Gaussian primitive 层去约束动态。
这张图就是 DynamicVGGT 的整体训练框架图。可以把它理解成一条很清晰的流水线:
输入多视角图像序列 → 提取空间几何特征 → 建模时序运动 → 分两条头分别做未来点图预测和动态高斯重建。
最左边输入的是一个多视角图像序列,这里画成了 {V1, V2, V3}。每个 Vi 可以理解为同一时刻或相邻时刻的不同相机视角图像。
第一步是 DINOv2 Backbone。这部分负责把原始图像编码成 token 表示。输出两类 token:一类是 patch tokens,表示图像局部区域的视觉特征;另一类是 camera tokens,表示和相机相关的全局信息。
接着进入中间的 Alternating-Attention (AA) blocks。这部分继承自 VGGT,本质上还是原始 backbone 里最重要的空间几何建模模块。它的作用是对 patch tokens 和 camera tokens 做帧内建模,让模型先学会“这一帧里空间结构是什么样的”。所以 AA blocks 主要负责的是 intra-frame spatial geometry,也就是单帧内部的几何关系,而不是时间上的运动关系。
和 AA blocks 并行的,就是图中下面这条 Motion-aware Temporal Attention (MTA) blocks。这是 DynamicVGGT 最关键的新加模块之一。它的输入除了来自上面空间分支的 patch tokens,还额外引入了图中蓝色的小块 motion tokens。这些 motion tokens 是可学习参数,专门用来编码时间先验和跨帧运动线索。MTA 的作用,就是沿时间维去看不同帧之间的关系,建模 inter-frame temporal dependencies。换句话说,AA 负责回答“每帧长什么样”,MTA 负责回答“相邻帧之间怎么变化”。
经过 MTA 之后,模型得到的是图中右边标出来的 Temporal Features TA。这部分就是“已经融合了时间信息”的特征,可以理解成动态增强后的表示。论文后面几乎所有动态任务,都是基于这个 TA 来做的。
然后图右边分成两条任务头。
上面这一条是 DGSHead,也就是 Dynamic 3D Gaussian Head。它负责做动态 3D Gaussian Splatting 重建。你可以把它理解成:模型不只是恢复点图,还要把场景表示成可随时间变化的 3D Gaussian primitives,并且显式预测它们的运动。这个 head 更偏向显式动态几何建模,最后服务于动态场景重建和 novel view synthesis。
下面这一条是 FPH(Future Point Head)。它负责从当前时刻的 temporal feature 直接预测未来时刻的 point map。也就是说,它让模型学习“下一帧的三维点图应该长什么样”。这个任务本质上是在做 future point prediction,通过预测未来点图,让模型隐式学会点级运动。
所以,这两条头虽然都和动态有关,但分工不一样:
- DGSHead 更偏:显式运动建模 + 动态高斯重建
- FPH 更偏:隐式运动学习 + 未来几何预测
DynamicVGGT 的解决思路是:让模型同时预测当前帧和未来帧的点图,并在同一参考坐标系下对齐。这样,模型可以通过时序对应关系,隐式地学会”物体是怎么动的”,而无需任何显式的运动标注。
更关键的是,整个过程无需相机外参对齐,极大降低了真实部署的门槛。
三大核心模块:从”感知当下”到”理解时序”
为了实现这一目标,论文设计了三个紧密协作的关键模块:
运动感知时序注意力(MTA):在标准的多视角 Transformer 中引入时序维度,让模型不只”看当前帧”,而是学会跨帧的运动连续性。就像人类看视频时会自然地追踪运动物体,而非每帧独立理解。
未来点图预测头(Future Point Head):在联合训练的框架下,预测场景中每个点在未来时刻的位置,为后续的动态高斯优化提供运动先验。
动态3D高斯泼溅渲染头(Dynamic 3D Gaussian Splatting Head):在上述运动表征的基础上,引入可学习的运动 token,通过场景流监督来预测每个高斯球的运动速度,并以此持续优化几何质量。最终实现高质量的新视角合成,哪怕是在有大量运动物体的驾驶场景中。
实验结果


论文在两大权威自动驾驶数据集上进行了全面评测:
场景重建精度:在 Accuracy、Completeness、Normal Consistency 等核心指标上,DynamicVGGT 显著优于此前所有对比方法;
新视角合成(NVS):给定稀疏输入帧(如第0、2、4帧),模型不仅能重建完整场景,还能直接合成第5帧的真实感渲染结果,时序一致性出色;
多任务输出丰富:除了场景重建,模型同时输出可用的深度图、相机位姿估计,一个前馈网络搞定多个自动驾驶感知子任务。
DynamicVGGT 在 point map reconstruction 上比 VGGT 和 StreamVGGT 更好。KITTI 单目三帧设置下,它达到 0.901 的 Accuracy 和 0.939 的 Normal Consistency;Waymo 三相机设置下,它达到 4.021 的 Accuracy 和 0.603 的 Normal Consistency。
这个模型在深度估计上也表现很强,说明动态建模并没有破坏几何 backbone,反而增强了它的泛化能力。KITTI 单目 Abs Rel 0.070,NYU-v2 单目 Abs Rel 0.064、δ < 1.25 准确率 0.943,KITTI MVS Abs Rel 0.051、准确率 0.976,整体优于 VGGT 和 StreamVGGT。这个结果其实挺说明问题:DynamicVGGT 不是为了动态任务牺牲几何,而是在更强时间建模下把几何也一起做稳了。
消融实验
我们以 vanilla VGGT 为基线,先加 temporal attention 和 FPH,在 KITTI 上 Accuracy 从 1.489 降到 0.927,Completeness 从 0.690 降到 0.600;再加 DGSHead,Accuracy 进一步到 0.901,Normal Consistency 到 0.939。Waymo 上完整模型也达到最优的 4.021 Accuracy error 和 0.603 NC。这个消融说明两件事:一是“时间建模”本身已经带来很大收益;二是“动态 Gaussian 细化”会进一步把几何变得更平滑、更完整、更一致。也就是说,这不是单个模块偶然奏效,而是整条 DPM + MTA + FPH + DGSHead 的链条都在起作用。

可视化
可视化结果进一步支撑了这个结论。论文展示了单帧、短时多帧、长时序三种设置下的点图重建,结论都是 DynamicVGGT 比 VGGT 更稠密、更平滑,而且在大视角变化、下坡路、开阔路口这些难场景下,仍然能保持稳定的全局几何与点级运动轨迹。

总结
DynamicVGGT 的核心不是简单给 VGGT 加时序模块,而是围绕统一的 Dynamic Point Map 表示,把动态建模拆成三层:
- MTA 在特征层建模时间依赖
- FPH 在点图层隐式学习跨帧运动
- DGSHead 在 Gaussian primitive 层显式学习速度并细化动态几何
再通过合成到真实的两阶段训练,兼顾几何先验、运动连续性和真实驾驶场景适应性,最终把静态 3D 感知推进成统一的 feed-forward 4D 动态场景重建框架。

发表回复