原文链接:https://mp.weixin.qq.com/s/X9a1fX0HMavOD0uAf732cQ
1 动态户外尺度漂移难解决
3D 高斯溅射(3DGS)的出现,使自主机器人 SLAM 系统具备了高保真照片级建图能力,成为具身智能的核心技术之一。在该领域,3D 场景表示已成为关键研究前沿,催生了多种稀疏与稠密表示方法,显著提升了场景理解能力。
然而,现有 3DGS-SLAM 系统因依赖单一表示约束,在复杂户外场景中性能受限,尤其在大规模动态环境中面临累积误差与轨迹漂移问题,严重影响 3DGS 所需的高斯点云初始化。
本文归纳出两大核心挑战:
- 单一表示约束的局限性:户外场景富含语义与外观判别特征,而现有系统多仅依赖像素级光度或几何重建,缺乏高层语义与全局特征理解。
- 动态物体干扰:户外环境高度动态,缺乏动态建模会削弱后续位姿估计与地图重建。现有方法多采用刚性掩膜移除策略,未考虑 ego-motion 时的特征一致性损失,也缺乏对动态区域的细粒度分析。
文章标题:LVD-GS: Gaussian Splatting SLAM for Dynamic Scenes via Hierarchical Explicit-Implicit Representation Collaboration Rendering

为此,我们提出 LVD-GS SLAM,一种面向动态户外场景的新型激光-视觉 3D 高斯溅射框架。基于视觉基础模型(VFMs),我们设计了表示协同机制,在映射过程中相互增强,有效缓解尺度歧义并提升重建保真度;随后提出联合动态建模模块,利用开放世界分割与隐式残差约束生成更精细的动态物体掩膜。
主要贡献:
- 提出面向动态场景的激光-视觉 3D 高斯溅射 SLAM 框架 LVD-GS,通过几何、语义与 DINO 特征的层级表示协同,实现高层理解与高保真建图。
- 提出联合动态建模方法,利用 DINO-Depth 特征不确定度估计,结合开放世界分割与隐式残差约束,生成细粒度动态掩膜。
- 在 KITTI、nuScenes 及自采数据集上的大量实验表明,本文方法在现有 3DGS-SLAM 系统中实现最优的位姿估计精度与新视角合成性能。
2 具体方法


2.1 层级表示协同建图

2.2 显-隐联合动态建模

3 实验结果
3.1 实现与实验设置
实验在 nuScenes、KITTI 及自采数据集上进行。渲染性能采用 PSNR、SSIM 评估;位姿估计性能采用 ATE-RMSE(m) 评估。对比方法包括 MonoGS、SplaTAM、LoopSplat、OPENGS、S3POGS。实现基于 PyTorch,在 NVIDIA RTX3090Ti GPU 上测试。

(表格 1:位姿估计性能对比)

(图 3:轨迹可视化)
3.2 实验结果
3.2.1 位姿估计结果
在 KITTI 与自采数据集上的评估表明,本文方法在所有序列中均取得最优跟踪精度。通过多尺度表示与激光点云初始化,系统利用多级特征优化位姿,增强模型收敛。受内存限制,其他方法仅评估每序列前 350 帧,且户外位姿误差较大。本文层级表示协同通过捕获丰富上下文信息,实现更鲁棒定位。
3.2.2 新视角合成
如表格 2 所示,本文方法在全部数据集上取得最优新视角合成性能。相比现有 3DGS-SLAM 基线,PSNR 提升:nuScenes +4.48 dB,KITTI +1.51 dB,自采 +3.79 dB。图 4 展示了城市场景、高速公路及校园场景的渲染结果,本文方法在车辆轮廓、建筑结构与道路细节方面均生成照片级重建,在高度动态区域有效滤除瞬态物体,减少跟踪漂移,保持时序一致性。

(图 4:新视角合成可视化)

(表格 2:新视角合成结果)
3.3 消融实验
表格 3 与图 5 显示,动态建模与表示协同两模块均能有效降低户外环境累积漂移。表示协同在大规模户外场景性能更优,Sem-Geo-DINO 线索显著提升建图质量。

(表格 3:两核心模块消融实验)

(图 5:消融可视化, 动态建模)
4 总结一下
我们提出 LVD-GS SLAM,是一种面向动态户外场景的激光-视觉 3D 高斯溅射系统,通过表示协同约束建图优化,并集成显-隐联合模块移除动态物体,有效应对尺度漂移问题。未来工作将构建实例级认知导航 3DGS 地图。

发表回复