2026-01-09 TALO: 支持任意3D基础模型、任意相机配置的室外重建系统

原文链接:https://mp.weixin.qq.com/s/66iH_Qoyj1owhMK_kzWZIg

3D视觉基础模型:从离线重建到在线增量重建

最近,3D视觉基础模型的出现,如 VGGT、π³、MapAnything,标志着三维重建领域迈入了一种端到端、数据驱动的新范式。这类模型能够在一次前向推理中,直接从输入图像预测相机内参、相机位姿以及稠密几何结构,极大地简化了传统三维重建流程,并展现出强大的跨场景泛化能力。基础模型的成功建立在大规模、有标注的3D数据集以及在其上训练的大型 Transformer 架构,这使得模型能够同时学习多视几何、视角关系以及场景结构先验。

然而,现有的大多数基础模型主要被设计用于离线场景重建,即在推理阶段可以一次性访问完整的图像序列。而在自动驾驶、机器人操作等现实应用场景中,系统通常需要具备在线重建能力:模型应当能够随着新数据的到来,增量式地重建新区域,而非在获取全部图像后再统一处理。尽管已有少数工作如 CUT3R 尝试在模型层面直接支持在线增量式重建,但实验结果表明,当序列长度不断增加时,其稳定性会显著退化,这使其难以应对大规模的室外真实场景。因此,如何将通用的基础模型扩展为鲁棒的在线增量重建系统,成为当前研究中的一个关键问题。

现有工作总结:从 Sim3 对齐到 SL4 对齐

一种最直观的思路是:将连续长序列按照固定间隔划分为子地图,并对每个子地图分别使用基础模型进行推理并对齐。然而这一对齐过程并不简单。由于各个子地图是独立预测的,当前基础模型难以在不同子地图之间天然地保持一致性,因此必须有针对性地设计子地图对齐机制。VGGT-Long 和 VGGT-SLAM 是最早系统性探索这一方向的两项工作。二者均采用如下思路:在相邻子地图的重叠区域内,对两个子地图分别预测得到的点云求解一个三维线性变换,通过对齐重叠区域的点云来实现子地图之间的一致性;其主要差异在于所采用的三维线性变换模型不同。

VGGT-Long 采用 Sim(3)(Similarity Transform)对齐策略。Sim(3) 具有7个自由度,在保持角度与形状比例不变的同时,仅允许整体尺度缩放,因此具有较好的稳定性。VGGT-SLAM 进一步观察到,基础模型在不同子地图间往往会预测出不一致的相机内参,这使得 Sim(3) 难以实现精确的几何对齐。为此,VGGT-SLAM 将对齐空间从 Sim(3) 扩展至 SL(4)。SL(4) 是三维投影变换(3D Projective Transform)的一个子集,拥有15个自由度,不保持角度或形状不变,能够建模更为复杂甚至高度非刚性的几何畸变,因此具有更强的表达能力,但也更容易引入数值不稳定性。

实验结果表明,在室外多相机设置下,SL(4) 对齐方式高度脆弱:在跨多个数据集和基础模型的系统性评测中,超过60%的场景重建失败。相比之下,Sim(3) 在数值上虽然更为稳定、不易出现灾难性失败,但仍然面临明显的轨迹漂移几何伪影(例如 Duplicated-layer Surface 现象等)。

局限性分析

通过系统分析,本文总结了现有基于全局线性对齐方法的三项根本性局限。

  1. 这类方法隐含地假设:不同子地图之间的几何差异在空间上是全局一致的,因而可以通过一个单一的全局线性变换来进行对齐。然而,在真实的户外场景中,这一假设往往难以成立。尤其是在多相机配置和较小子地图规模下,子地图之间的几何误差通常随空间位置发生变化。在这种情况下,无论是 Sim(3) 还是 SL(4),强行施加一个全局线性变换,都会不可避免地在某些区域过拟合、而在另一些区域留下明显残差,这实际上是牺牲轨迹精度来补偿局部几何不一致性。
  2. 现有方法仅在相邻子地图之间执行两两对齐,这只能保证短期最优。在触发回环之前,来自非相邻子地图的信息完全无法被利用,这限制了系统实现全局一致性的能力。
  3. SL(4) 由于其欠约束的高自由度特性,对基础模型预测几何中的噪声极为敏感,易产生退化解,例如异常的相机位姿和几何结构。

本文方法及贡献

为了解决上述问题,本文提出一种即插即用的对齐框架 TALO,旨在扩展通用基础模型实现全局一致的在线增量重建。TALO 通过引入在空间上均匀分布、在时间上全局传播的稀疏控制点,跨子地图累积并融合多视角观测,结合薄板样条(Thin Plate Spline,TPS)变换模型,实现对子地图精细且空间自适应的几何对齐,显著增强全局一致性。与此同时,TALO采用一种点云无关的子地图注册策略:不依赖噪声较大的点云,而是通过对重叠帧之间的相对相机位姿进行平均来对齐子地图间的坐标系,从而获得对基础模型预测的几何噪声具有天然鲁棒性的轨迹估计。

本文的主要贡献总结如下:

  • 本文对现有基础模型对齐策略进行了系统性分析,揭示了其在假设合理性、对齐作用范围以及噪声鲁棒性方面的根本局限。
  • 本文提出了一种基于全局控制点传播与薄板样条变换的精细几何对齐策略,以及一种基于重叠相机位姿平均的鲁棒子地图注册策略,从而实现全局一致的在线增量重建。
  • 本文构建了一个即插即用的基础模型对齐系统 TALO,可无缝支持多种基础模型(如 VGGT、π³、MapAnything)以及任意相机配置(如单目或环视)。
  • 在多个数据集、基础模型和相机设置下的大量实验结果表明,TALO 能够稳定地产生更一致的几何结构和更低的轨迹误差,充分体现了其鲁棒性与通用性。

核心模块1:基于重叠相机位姿平均的鲁棒子地图注册

核心模块2:控制点的构造与全局传播

核心模块3:基于 TPS 的精细几何对齐

实验结果

我们在 Waymo 和 nuScenes 两个代表性的自动驾驶数据集上,对 TALO 与 VGGT-Long、VGGT-SLAM 进行了系统性的对比实验。由于后两者均仅针对单目视频设计,且仅以 VGGT 作为基础模型,我们基于其官方代码在统一的实验框架下对二者进行了集成,并采用完全一致的后端优化和回环机制以及相同的实验设置。

同时,我们将该管线扩展至多相机序列,并支持包括 π³ 和 MapAnything 在内的其他3D视觉基础模型。上述实现使我们能够在不同数据集和不同基础模型之间对子地图对齐行为进行清晰可控的对比研究。

相机轨迹精度评估结果如表1和表2所示。结果表明,TALO 在所有数据集和基础模型设置下均取得了最优结果,且未出现任何重建失败场景。在所有测试中,TALO 的平均绝对轨迹误差(ATE)稳定在约1 m左右。更为重要的是,TALO 在旋转精度上的提升尤为显著。

例如在 Waymo 数据集上,TALO 将相对旋转误差(RRE)从 VGGT-Long 的 0.71° 降低至 0.14°,实现了近 5 倍的改进。结合后文的可视化结果可以观察到,尽管 VGGT-Long 在部分场景中与 TALO 具有接近的 ATE 数值,但其轨迹仍然存在明显的方向漂移;相比之下,TALO 能够更好地保持正确的行进方向,从而获得显著更低的 RRE。相比之下,VGGT-SLAM 中采用的 SL4 对齐方式,在室外、多相机、长序列场景下表现出极端不稳定性,在测试序列中超过 60% 的场景发生重建失败。VGGT-Long 采用的 Sim3 对齐方式仅出现少数失败案例,但在缺乏回环闭合的场景下,仍然容易累积明显的轨迹漂移。

点云重建质量评估结果如表3和表4所示。为避免发散结果对评价指标造成主导影响,单点误差被裁剪至 10 m。结果显示,TALO 在大多数场景和基础模型设置下均取得最优表现。需要指出的是,正如VGGT-Long文章中分析的那样,这些定量点云评价指标并不能完全反映真实的几何质量,因为真值点云由 LiDAR 扫描累积获得,其覆盖范围通常显著区别于基于图像预测的点云范围。

因此,在某些场景中,即便 VGGT-Long 由于轨迹漂移导致几何结构发生扭曲,其预测点云仍可能落在 LiDAR 覆盖区域内,依旧能取得较低的 Accuracy 和 Completeness。相比之下,后文中的可视化结果表明,TALO 能够恢复更加准确且边界清晰的几何结构,有效消除以往方法中常见的多层伪影现象。

图1:基于VGGT在Waymo数据集上的重建结果可视化对比

图2:基于VGGT在nuScenes数据集上的重建结果可视化对比

图3:基于π³在Waymo数据集上的重建结果可视化对比

图4:基于π³在nuScenes数据集上的重建结果可视化对比

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论