2026-03-25 前馈GS开始落地了，理想最新的StreetForward解析……

原文链接：https://mp.weixin.qq.com/s/jbLiAFgtQhDg8bZZAX_mgg

自动驾驶闭环仿真，这两年开始真正进入落地的阶段了。

过去大家对仿真的理解，更多还是规则引擎、行为回放、少量资产拼接。能不能跑，能不能测，能不能做一些 corner case 复现，这当然重要。但当行业开始追求更大规模的闭环仿真、更高密度的场景复用、更真实的时空一致性之后，一个问题就绕不过去了：

我们到底能不能把真实世界的一段驾驶视频，快速、稳定、低成本地还原成一个真实可渲染、可编辑的 4D 场景？

前两年，理想和浙大的 Street Gaussians，把 3DGS带进了自动驾驶动态场景建模的主舞台。它讨论的已经不是怎么把一个Clip拍得更好看，而是怎么把一条街变成一个可以拿来仿真的显式世界模型。这一步很关键。因为它让行业第一次比较系统地看到：Gaussian 这套表示，不只是 CV 里的新渲染方法，也可能是自动驾驶闭环仿真的一条新路径。

和 Street Gaussians 同期的很多工作，存在一个共同问题：它们大多还是逐场景优化的。

这相当于每一段新数据，都需要一个3DGS的模型来对场景建模。这在业界里就很难 scaling 了。自动驾驶每天新增的数据不是几十段Clip，而是以万为单位的数据流。你不可能指望每段数据都慢慢优化完，再拿去做仿真。

这就是为什么，行业开始重视 Feedforward GS。带起这个风头的是去年ICCV的特斯拉，然后国内开始跟进。

前馈GS最大的优点是不用逐场景优化，可以和视觉backbone一起做，这样就可以并到云端或者车端的模型上，而且速度上也更快。

再往后几个月，国内外的团队都开始把精力往“前馈动态重建 + 自动驾驶闭环仿真”这条线上堆。理想这篇 StreetForward，就是这个大背景下的一篇非常典型、也非常有落地指向性的工作。

整体看下来，理想汽车基座模型团队推出的 StreetForward是一个面向动态街景的前馈（Feedforward）4D重建与渲染框架。无需位姿、无需跟踪、无需分割、也不依赖 LiDAR等3D先验，通过隐式推断在动态感知与几何重建之间得到显式表征，并支持空间与时间的高保真内/外插，助力自动驾驶闭环仿真与大规模数据挖掘。

论文标题：StreetForward: Perceiving Dynamic Street with Feedforward Causal Attention
论文链接：https://arxiv.org/abs/2603.19552

StreetForward 到底要解决什么问题？

传统 SfM/NeRF/3DGS 方案常慢且依赖强（位姿/分割/跟踪/光流），而纯前向方案又常在运动理解与几何稳定上妥协。

所以StreetForward 这篇论文要解的，不是普通的新视角合成，而是更难的一类问题：

输入是一段街景视频；
不要求预先给相机位姿；
不依赖 tracker；
不在测试时做 per-scene optimization；
最终却要输出一个既能看新视角、又能看新时间点的 4D 动态场景。

StreetForward 给出新的答案是：以 VGGT 的交替注意力（AA）为骨干，引入因果掩码注意力（Causal Masked Attention），把“多帧平均”变为“源→目标帧的定向信息流”；再与统一的 3D 高斯元子（3DGS）表达结合，通过跨帧渲染联合学习深度与速度。无需位姿/分割/跟踪/LiDAR，即可获得更强的动态理解与接近 MVS 的重建质量，且天然支持新视角+新时刻渲染。

传统 SfM/NeRF/3DGS 方案常慢且依赖强（位姿/分割/跟踪/光流），而纯前向方案又常在运动理解与几何稳定上妥协。

所以StreetForward 这篇论文要解的，不是普通的新视角合成，而是更难的一类问题：

输入是一段街景视频；
不要求预先给相机位姿；
不依赖 tracker；
不在测试时做 per-scene optimization；
最终却要输出一个既能看新视角、又能看新时间点的 4D 动态场景。

方法的核心贡献总结如下：

StreetForward的直观解读

1）先把视频变成几何 token

2）从 token 里解析 pose、depth 和静态高斯

3）真正的核心：Causal Dynamics Modeling

4）用一个速度头，把运动数值化

5）运动不需要直接监督，而是靠一致性约束

这是 StreetForward 方法里第二个点。

论文明确说了：精确逐像素速度监督通常拿不到，直接从渲染损失里学运动又很容易病态。所以他们引入了两层 motion consistency。

局部刚性约束

训练方法

StreetForward用了 staged training。

第一阶段先不训 motion head，也不做跨时间动态高斯聚合。此时每一帧主要靠全局静态高斯和本帧动态高斯来重建。

等到 Gaussian head 和 depth head 已经能把单帧几何学稳，再打开 motion head，开始做动态高斯的时间传播与聚合。

1）RGB 重建损失

2）透明抑制

3）深度一致性

三、实现细节

图像编码器用的是 DINOv2，并在训练中冻结；backbone 是 36 层 alternating-attention；camera head 和 depth head 用 Pi3 预训练权重初始化；causal masked attention 模块是 4 层、每层 16 个 heads；训练时会对时间序列做 (1\times) 到 (4\times) 的随机降采样，让模型适应不同时间采样率。

实验结果

Waymo