2026-01-12 又一个4D世界模型狠活：先快建，再补画质，镜头轨迹还很听话

原文链接：https://zhuanlan.zhihu.com/p/1992036976216524281

导读

现在越来越多“能动”的 AI 开始想做一件更难的事：把真实世界变成可复用的数字世界。不管是内容创作、自动驾驶，还是具身智能，大家都希望模型不仅能看懂一段视频，还能“在脑子里搭出一个会动的 3D 世界”，并且从没拍过的视角、没走过的轨迹里继续生成一致的画面。问题是，很多 4D 世界模型

要么依赖昂贵的多视角动态采集，要么训练前得做一堆离线重建与预处理，规模一大就很难推。NeoVerse 盯住的就是这个瓶颈：能不能用最便宜、最常见的野外单目视频，把 4D 重建和新轨迹视频生成都做成“可扩展、能泛化”的一套框架？

先“快建世界”，再“补出高质量”，把单目视频也变成 4D 训练燃料

作者的关键创新在于：如果想吃下海量单目视频，第一步必须把“建世界”这件事变轻。NeoVerse 先用一个前馈式的重建模型，从单目视频里直接预测出动态的 4D 高斯表示（4DGS），你可以把它理解成一团会随时间移动的“高斯点云”，既能渲染新视角，也能带时间变化。为了让动态更可信，他们还加入了双向运动建模：同一个点既学“往前一帧怎么动”，也学“往后一帧怎么动”，方便在不同时间点之间插值补齐。

第二步更巧：他们把重建出的 4DGS 渲染成新视角的低质量条件输入（包括渲染 RGB、深度、遮罩、以及表示相机运动的 Plücker 表达等），再交给生成模型去“补成高质量视频”，同时要求时空一致、相机轨迹可控。为了让训练能规模化，NeoVerse 还专门设计了“在线退化模拟

”：在训练时人为制造遮挡、飞边深度像素、畸变等问题，让生成模型学会在这些糟糕条件下仍能补出稳定画面。这样一来，单目野外视频就能不断变成可用的训练对。

图1｜NeoVerse 总览：用单目视频快速重建 4DGS，再用生成模型补出高质量新视角视频。NeoVerse 以“前馈式”的方式从单目视频直接重建 4D Gaussian Splatting。这些 4DGS 可以从新视角渲染出“退化版”条件输入，再由生成模型把它补成高质量、时空一致的视频

技术亮点

无需外参 + 4DGS一遍过，把“重建”从重工程变成轻入口

NeoVerse 的重建部分强调“pose-free”，也就是不强依赖外部提供的相机位姿输入，直接从单目视频估出可用于渲染的动态表示与相机参数。更关键的是“前馈式”：不走那种一段视频反复优化的慢流程，而是更像“一遍过”把动态 4DGS吐出来。这个过程大大降低了世界场景重建的工程量，轻量化的设计让重建出来的环境可以更好的服务于训练智能体。

图2｜NeoVerse 框架：先重建，再生成，两阶段把单目视频变成可控的 4D 世界模型。
第一阶段是无位姿依赖的 4DGS 重建，并引入双向运动建模来描述动态变化；第二阶段将 4DGS 在新视角下的退化渲染结果作为条件输入，训练生成模型输出更清晰、更一致的新视角视频。训练时，退化条件由单目视频在线模拟，而原始视频作为监督目标

双向运动建模，让动态插值和稀疏关键帧训练都能站得住

单目视频里动态物体的运动很容易“糊”，尤其当你只选稀疏关键帧做重建时，中间帧怎么补是个大坑。NeoVerse 用双向速度与角速度去描述点的运动，把“向前”和“向后”区分开，能更自然地在相邻时间点之间做插值。这样他们就能用稀疏关键帧重建来提升训练效率，同时不至于让动态一致性掉太多。

图3｜动态场景定性对比：伪影更少，但“黑区”主要来自输入本身的不可见。黄色框标出伪影区域。需要注意：NeoVerse 结果中的黑色区域并非错误，更多是由于输入帧只覆盖了部分观察范围，导致某些区域本身就没有观测

在线退化模拟，把“单目野外视频难训练”变成“可控的训练信号”

论文里把单目新视角渲染的常见问题讲得很具体：遮挡带来的缺失、深度边缘的飞边像素、以及由深度误差引起的空间畸变。NeoVerse 不是回避这些问题，而是把它们做成训练时的“故意刁难”：用可见性高斯裁剪模拟遮挡，用平均几何滤波制造飞边与更大范围畸变，让生成模型在坏条件下学会补全并保持时空一致。对具身系统来说，这相当于提前在训练里“见过最差的现实”，部署时就更不容易被噪声一脚绊倒。

图4｜退化模拟生成的训练样本：把遮挡、畸变、飞边等问题“提前放进训练里”。展示通过退化模拟构造出的训练对：输入是带缺失与伪影的渲染条件，目标是原始清晰视频，用于教模型在复杂野外场景中更稳地补全细节

实验与验证

实验主要传达两个趋势：重建质量更好，以及生成在大幅相机运动下更稳、更快。在动态重建基准上，NeoVerse 的量化指标（PSNR/SSIM/LPIPS

）整体优于多种对比方法，并且论文也强调有的方法还需要相机位姿作为输入，而他们主打的是更易规模化的设定。

图5｜静态场景重建的量化对比结果。对比 NeoVerse 与其他静态重建方法在重建质量指标上的表现

在新轨迹视频生成上，论文用 VBench 做了系统评估，同时给了非常直观的“工程信号”：对比 TrajectoryCrafter、ReCamMaster 等方法，NeoVerse 在保持相机轨迹可控的前提下，能用稀疏关键帧把重建阶段压到很短，并把总推理时间从“分钟级”拉到更接近“几十秒级”的量级（表中总时间对比非常醒目）。

图6｜新视角生成的 VBench 评测与推理耗时对比。在随机收集的未见野外视频上评估新视角生成质量，并在统一分辨率设置下比较平均推理时间；运行测试在 A800 GPU 上完成

定性结果里，他们专门展示了大幅相机运动（例如左右平移、转向）时的画面稳定性，并指出某些对比方法会出现明显伪影，而 NeoVerse 视觉质量更干净。

图7｜大幅相机运动下的新视角生成：既要画质，也要“镜头轨迹听话”。在野外复杂视频上对比“向左平移”“向右移动”等大视角变化。NeoVerse 在保持相机运动可控的同时，生成质量更稳定；黄色框标出其他方法更容易出现的伪影区域

总结

NeoVerse 的价值不只是在某个指标上更高，而在于它把“4D 世界模型如何吃下野外单目视频”这件事讲清楚并做成了：用更轻的前馈式 4DGS 把世界先搭起来，再用退化条件驱动的生成去补出高质量，同时用在线退化模拟把单目场景的坑变成训练信号。

对General的AI来说，这类方法更像在铺一条路：当世界模型能用便宜数据越练越广，AI智能体未来的“世界理解”就可能不再局限于少量精心采集的场景。

如果 4D 世界模型真的可以从互联网视频里持续生长，AI智能体会不会第一次拥有“见得越多，世界越完整”的长期学习体验？

论文出处：arXiv2026

论文标题：NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

论文作者：Yuxue Yang, Lue Fan, Ziqi Shi, Junran Peng, Feng Wang, Zhaoxiang Zhang

链接：https://neoverse-4d.github.io/

2026-01-12 又一个4D世界模型狠活：先快建，再补画质，镜头轨迹还很听话

导读

先“快建世界”，再“补出高质量”，把单目视频也变成 4D 训练燃料

技术亮点

无需外参 + 4DGS一遍过，把“重建”从重工程变成轻入口

双向运动建模，让动态插值和稀疏关键帧训练都能站得住

在线退化模拟，把“单目野外视频难训练”变成“可控的训练信号”

实验与验证

总结

发表回复取消回复

Categories

Archives

2026-01-12 又一个4D世界模型狠活：先快建，再补画质，镜头轨迹还很听话

导读

先“快建世界”，再“补出高质量”，把单目视频也变成 4D 训练燃料

技术亮点

无需外参 + 4DGS一遍过，把“重建”从重工程变成轻入口

双向运动建模，让动态插值和稀疏关键帧训练都能站得住

在线退化模拟，把“单目野外视频难训练”变成“可控的训练信号”

实验与验证

总结

发表回复 取消回复

Categories

Archives

发表回复取消回复