2026-03-25 前馈GS开始落地了,理想最新的StreetForward解析……

原文链接:https://mp.weixin.qq.com/s/jbLiAFgtQhDg8bZZAX_mgg

自动驾驶闭环仿真,这两年开始真正进入落地的阶段了。

过去大家对仿真的理解,更多还是规则引擎、行为回放、少量资产拼接。能不能跑,能不能测,能不能做一些 corner case 复现,这当然重要。 但当行业开始追求更大规模的闭环仿真、更高密度的场景复用、更真实的时空一致性之后,一个问题就绕不过去了:

我们到底能不能把真实世界的一段驾驶视频,快速、稳定、低成本地还原成一个真实可渲染、可编辑的 4D 场景?

前两年,理想和浙大的 Street Gaussians,把 3DGS带进了自动驾驶动态场景建模的主舞台。它讨论的已经不是 怎么把一个Clip拍得更好看,而是 怎么把一条街变成一个可以拿来仿真的显式世界模型。这一步很关键。因为它让行业第一次比较系统地看到:Gaussian 这套表示,不只是 CV 里的新渲染方法,也可能是自动驾驶闭环仿真的一条新路径。

和 Street Gaussians 同期的很多工作,存在一个共同问题:它们大多还是逐场景优化的。

这相当于每一段新数据,都需要一个3DGS的模型来对场景建模。这在业界里就很难 scaling 了。自动驾驶每天新增的数据不是几十段Clip,而是以万为单位的数据流。你不可能指望每段数据都慢慢优化完,再拿去做仿真。

这就是为什么,行业开始重视 Feedforward GS。带起这个风头的是去年ICCV的特斯拉,然后国内开始跟进。

前馈GS最大的优点是不用逐场景优化,可以和视觉backbone一起做,这样就可以并到云端或者车端的模型上,而且速度上也更快。

再往后几个月,国内外的团队都开始把精力往“前馈动态重建 + 自动驾驶闭环仿真”这条线上堆。理想这篇 StreetForward,就是这个大背景下的一篇非常典型、也非常有落地指向性的工作。

整体看下来,理想汽车基座模型团队推出的 StreetForward是一个面向动态街景的前馈(Feedforward)4D重建与渲染框架。无需位姿、无需跟踪、无需分割、也不依赖 LiDAR等3D先验,通过隐式推断在动态感知几何重建之间得到显式表征,并支持空间与时间的高保真内/外插,助力自动驾驶闭环仿真大规模数据挖掘

  • 论文标题:StreetForward: Perceiving Dynamic Street with Feedforward Causal Attention
  • 论文链接:https://arxiv.org/abs/2603.19552

StreetForward 到底要解决什么问题?

传统 SfM/NeRF/3DGS 方案常慢且依赖强(位姿/分割/跟踪/光流),而纯前向方案又常在运动理解几何稳定上妥协。

所以StreetForward 这篇论文要解的,不是普通的新视角合成,而是更难的一类问题:

  1. 输入是一段街景视频;
  2. 不要求预先给相机位姿;
  3. 不依赖 tracker;
  4. 不在测试时做 per-scene optimization;
  5. 最终却要输出一个既能看新视角、又能看新时间点的 4D 动态场景。

StreetForward 给出新的答案是:以 VGGT 的交替注意力(AA)为骨干,引入因果掩码注意力(Causal Masked Attention),把“多帧平均”变为“源→目标帧的定向信息流”;再与统一的 3D 高斯元子(3DGS)表达结合,通过跨帧渲染联合学习深度速度。无需位姿/分割/跟踪/LiDAR,即可获得更强的动态理解接近 MVS 的重建质量,且天然支持新视角+新时刻渲染。

传统 SfM/NeRF/3DGS 方案常慢且依赖强(位姿/分割/跟踪/光流),而纯前向方案又常在运动理解几何稳定上妥协。

所以StreetForward 这篇论文要解的,不是普通的新视角合成,而是更难的一类问题:

  1. 输入是一段街景视频;
  2. 不要求预先给相机位姿;
  3. 不依赖 tracker;
  4. 不在测试时做 per-scene optimization;
  5. 最终却要输出一个既能看新视角、又能看新时间点的 4D 动态场景。

StreetForward 给出新的答案是:以 VGGT 的交替注意力(AA)为骨干,引入因果掩码注意力(Causal Masked Attention),把“多帧平均”变为“源→目标帧的定向信息流”;再与统一的 3D 高斯元子(3DGS)表达结合,通过跨帧渲染联合学习深度速度。无需位姿/分割/跟踪/LiDAR,即可获得更强的动态理解接近 MVS 的重建质量,且天然支持新视角+新时刻渲染。

方法的核心贡献总结如下:

StreetForward的直观解读

1)先把视频变成几何 token

2)从 token 里解析 pose、depth 和静态高斯

3)真正的核心:Causal Dynamics Modeling

4)用一个速度头,把运动数值化

5)运动不需要直接监督,而是靠一致性约束

这是 StreetForward 方法里第二个点。

论文明确说了:精确逐像素速度监督通常拿不到,直接从渲染损失里学运动又很容易病态。所以他们引入了两层 motion consistency。

局部刚性约束

训练方法

StreetForward用了 staged training。

第一阶段先不训 motion head,也不做跨时间动态高斯聚合。此时每一帧主要靠全局静态高斯和本帧动态高斯来重建。

等到 Gaussian head 和 depth head 已经能把单帧几何学稳,再打开 motion head,开始做动态高斯的时间传播与聚合。

1)RGB 重建损失

2)透明抑制

3)深度一致性

三、实现细节

图像编码器用的是 DINOv2,并在训练中冻结;backbone 是 36 层 alternating-attention;camera head 和 depth head 用 Pi3 预训练权重初始化;causal masked attention 模块是 4 层、每层 16 个 heads;训练时会对时间序列做 (1\times) 到 (4\times) 的随机降采样,让模型适应不同时间采样率。

实验结果

Waymo

Waymo 原视角合成上,StreetForward 在动态区域拿到了最好的结果:

  • Dynamic-only: 24.30 PSNR / 0.827 SSIM
  • Full image: 27.01 PSNR / 0.818 SSIM

对比几个关键 baseline:

  • STORM:动态区域 22.10 / 0.624;
  • DGGT:动态区域 20.99 / 0.821;整图 27.41 / 0.846
  • AnySplat:动态区域 15.99 / 0.418

说明 StreetForward 的优势,不在于把大面积静态背景再抹得更平滑一点,而在于它更擅长解决真正难的那部分像素——车、人、时序插值、运动外推。

而闭环仿真恰恰最在意这部分。

Waymo sparse-depth RMSE 上,StreetForward 基本是全面领先:

论文在可视化里也专门强调了这一点:它对细杆、路灯、线缆这类细结构的重建更干净,对动态车辆的几何和渲染也更锐利。

CARLA 零样本迁移

StreetForward 用 Waymo 训练,不做任何 fine-tuning,直接零样本测试在 CARLA 100 个 clips 上,同时还评估 lane shift 的新视角。

Table 4 上,StreetForward 继续领先:

Table 5 上,StreetForward 的 dense-depth RMSE 也是最好:

消融实验里,最值得记住的是什么?

backward velocity:图 5 里带 backward fusion 的版本能更完整地还原行人与车辆几何。

写在最后

回顾自动驾驶闭环仿真的发展路线,会发现它的发展逻辑其实非常清楚。

以 StreetGaussians 为代表的工作,证明了 3DGS 在自动驾驶场景重建里是可用的,;而 StreetForward 这样的工作,进一步回答另一个更深入的问题:

我们能不能再一个个Clip慢慢优化,而是需要让模型看一遍,就把一个会动的街景世界直接建模出来。

这件事一旦成立,自动驾驶闭环仿真的生产方式就会发生质变。

去年有 WorldSplat,今年有 DriveVGGT、VGGDrive、VGGT-World、StreetGaussian等等。

StreetForward 肯定不是终局,但它很像一个明确的拐点:自动驾驶场景重建,正在从 优化问题 变成 推理问题。

这背后真正变化的,不只是算法。而是整个行业开始相信世界模型。

去年是端到端和VLA,今年应该确定是世界模型了,如果再加一个形容词,那应该得是前馈的

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论