2025-10-30 最新SOTA | 东南大学发布LVD-GS：面向智驾，推动3DGS融合动态SLAM

原文链接：https://mp.weixin.qq.com/s/X9a1fX0HMavOD0uAf732cQ

1 动态户外尺度漂移难解决

3D 高斯溅射（3DGS）的出现，使自主机器人 SLAM 系统具备了高保真照片级建图能力，成为具身智能的核心技术之一。在该领域，3D 场景表示已成为关键研究前沿，催生了多种稀疏与稠密表示方法，显著提升了场景理解能力。

然而，现有 3DGS-SLAM 系统因依赖单一表示约束，在复杂户外场景中性能受限，尤其在大规模动态环境中面临累积误差与轨迹漂移问题，严重影响 3DGS 所需的高斯点云初始化。

本文归纳出两大核心挑战：

单一表示约束的局限性：户外场景富含语义与外观判别特征，而现有系统多仅依赖像素级光度或几何重建，缺乏高层语义与全局特征理解。
动态物体干扰：户外环境高度动态，缺乏动态建模会削弱后续位姿估计与地图重建。现有方法多采用刚性掩膜移除策略，未考虑 ego-motion 时的特征一致性损失，也缺乏对动态区域的细粒度分析。

文章标题：LVD-GS: Gaussian Splatting SLAM for Dynamic Scenes via Hierarchical Explicit-Implicit Representation Collaboration Rendering

为此，我们提出 LVD-GS SLAM，一种面向动态户外场景的新型激光-视觉 3D 高斯溅射框架。基于视觉基础模型（VFMs），我们设计了表示协同机制，在映射过程中相互增强，有效缓解尺度歧义并提升重建保真度；随后提出联合动态建模模块，利用开放世界分割与隐式残差约束生成更精细的动态物体掩膜。

主要贡献：

提出面向动态场景的激光-视觉 3D 高斯溅射 SLAM 框架 LVD-GS，通过几何、语义与 DINO 特征的层级表示协同，实现高层理解与高保真建图。
提出联合动态建模方法，利用 DINO-Depth 特征不确定度估计，结合开放世界分割与隐式残差约束，生成细粒度动态掩膜。
在 KITTI、nuScenes 及自采数据集上的大量实验表明，本文方法在现有 3DGS-SLAM 系统中实现最优的位姿估计精度与新视角合成性能。

2 具体方法

2.1 层级表示协同建图

2.2 显-隐联合动态建模

3 实验结果

3.1 实现与实验设置

实验在 nuScenes、KITTI 及自采数据集上进行。渲染性能采用 PSNR、SSIM 评估；位姿估计性能采用 ATE-RMSE(m) 评估。对比方法包括 MonoGS、SplaTAM、LoopSplat、OPENGS、S3POGS。实现基于 PyTorch，在 NVIDIA RTX3090Ti GPU 上测试。

（表格 1：位姿估计性能对比）

（图 3：轨迹可视化）

3.2 实验结果

3.2.1 位姿估计结果

在 KITTI 与自采数据集上的评估表明，本文方法在所有序列中均取得最优跟踪精度。通过多尺度表示与激光点云初始化，系统利用多级特征优化位姿，增强模型收敛。受内存限制，其他方法仅评估每序列前 350 帧，且户外位姿误差较大。本文层级表示协同通过捕获丰富上下文信息，实现更鲁棒定位。

3.2.2 新视角合成

如表格 2 所示，本文方法在全部数据集上取得最优新视角合成性能。相比现有 3DGS-SLAM 基线，PSNR 提升：nuScenes +4.48 dB，KITTI +1.51 dB，自采 +3.79 dB。图 4 展示了城市场景、高速公路及校园场景的渲染结果，本文方法在车辆轮廓、建筑结构与道路细节方面均生成照片级重建，在高度动态区域有效滤除瞬态物体，减少跟踪漂移，保持时序一致性。

（图 4：新视角合成可视化）

（表格 2：新视角合成结果）

3.3 消融实验

表格 3 与图 5 显示，动态建模与表示协同两模块均能有效降低户外环境累积漂移。表示协同在大规模户外场景性能更优，Sem-Geo-DINO 线索显著提升建图质量。

（表格 3：两核心模块消融实验）

（图 5：消融可视化, 动态建模）

4 总结一下

我们提出 LVD-GS SLAM，是一种面向动态户外场景的激光-视觉 3D 高斯溅射系统，通过表示协同约束建图优化，并集成显-隐联合模块移除动态物体，有效应对尺度漂移问题。未来工作将构建实例级认知导航 3DGS 地图。

2025-10-30 最新SOTA | 东南大学发布LVD-GS：面向智驾，推动3DGS融合动态SLAM