2025-10-20 哈工大&理想PAGS:自驾闭环仿真新SOTA!

原文链接:https://mp.weixin.qq.com/s/sq30NSfUUOvSDZQ0tEDkOA

一、研究背景与核心问题

动态大规模城市环境的3D重建是自动驾驶系统的核心基础,支撑仿真测试、合成数据生成、数字孪生等关键应用。随着3DGS技术的出现,该领域实现了实时、照片级的新视角合成突破,主流方法(如StreetGS、DrivingGaussian)会将场景分解为静态背景与独立建模的动态前景,以应对城市场景的复杂性。

但现有方法存在一个关键瓶颈:语义无关的资源分配。无论是追求加速的Speedy-Splat、FlashGS,还是常规3DGS方法,均采用“均匀优化”范式,无法区分“对驾驶安全关键的元素”(如行人、车辆、骑行者)与“非关键元素”(如远处建筑、路边植被)。这导致计算资源被大量浪费在非关键元素的细节优化上,而关键物体的高频细节(如车辆轮廓、行人动作)因资源不足被平滑或模糊,最终陷入“保真度与计算成本不可兼得”的困境。

从figure 1的定性对比可直观看到:该方法仅需1小时训练,就能实现比StreetGS(3小时训练)、EmerNeRF(11小时训练)更清晰的重建效果,直接印证了现有方法在效率与质量平衡上的不足。

二、核心方法设计

为解决语义无关的资源错配问题,PAGS提出“将任务感知的语义优先级嵌入重建与渲染全流程”,核心包含三大模块:

组合高斯场景表示

语义引导的剪枝与正则化

该模块通过“语义优先级”实现资源精准分配,减少非关键元素的冗余计算,同时保留关键物体细节,包含三步核心设计:

离线语义场景分解

作为一次性预处理步骤,先通过Segment Anything Model(SAM)生成所有图像的实例掩码,再结合语义分割模型为掩码分配标签,最终将场景元素划分为两类:

  • 关键类:车辆、行人、骑行者(直接影响驾驶决策);
  • 非关键类:建筑、道路、植被(对驾驶安全影响极小)

语义引导剪枝

自适应随机 dropout

优先级驱动的渲染 pipeline

该模块将语义优先级转化为渲染效率,通过硬件加速的遮挡剔除,减少无效着色计算,实现实时渲染(FPS超350),分为两个关键pass:

Occluder Depth Pre-Pass

Color Pass

利用预渲染的深度图加速最终着色:

  • 硬件加速剔除:通过GPU的Early-Z测试,将每个待渲染片段的深度与Z-buffer中的深度对比,直接剔除被遮挡的片段,跳过后续昂贵的着色计算;
  • 半透明处理:对每个tiles执行“从后往前排序”,排序键结合语义优先级与深度,确保半透明高斯的alpha混合正确性。

从table 2可见,该pipeline使渲染速度从134 FPS(仅用语义剪枝)提升至353 FPS,同时模型大小(530 MB)、显存占用(6.1 GB)显著低于其他方法,适配车载硬件资源约束。

三、实验验证与结果分析

实验在Waymo(3个前置相机)与KITTI(立体相机)数据集上展开,以PSNR、SSIM、LPIPS衡量重建保真度,以训练时间、FPS衡量效率,对比EmerNeRF、PVG、StreetGS、DeSiRe-GS等主流方法,硬件为NVIDIA RTX 4090。

定量结果

  • 重建保真度:在Waymo数据集上,PAGS的PSNR达34.63、SSIM达0.933,LPIPS与StreetGS持平(0.073),关键物体细节(如车辆边缘)的PSNR(35.97,table 4)显著高于其他方法;KITTI数据集上表现一致,PSNR 34.58、SSIM 0.947,均为最优。
  • 效率:训练时间仅1h22m(Waymo)、1h31m(KITTI),远低于StreetGS(3h+)、EmerNeRF(11h+);渲染速度达353 FPS(Waymo)、365 FPS(KITTI),是StreetGS(136 FPS)的2.6倍,EmerNeRF(0.23 FPS)的1500+倍。
  • 部署友好性:模型大小530 MB、显存占用6.1 GB,仅为EmerNeRF(1217 MB、10.5 GB)的约1/2,适配车载硬件。

定性结果

  • 最终效果:PAGS重建的关键物体(如车辆、行人)边缘更锐利,背景细节(如道路标线)更清晰,无其他方法常见的模糊或伪影;
  • 收敛速度:训练1小时后,PAGS已能生成高保真结果,而EmerNeRF、PVG等方法同时间输出仍存在明显模糊,印证其高效的优化能力。

消融实验

组件贡献:table 3显示,语义引导剪枝与正则化(SPR)单独使用时,PSNR达34.95、训练时间1h24m,优于传统剪枝+dropout(32.35、1h36m);叠加优先级渲染(PDR)后,FPS从134提升至353,证明两模块协同价值。

混合度量有效性:table 4对比三种度量策略,仅PAGS的混合度量同时实现最高整体PSNR(34.63)与关键物体PSNR(35.97);梯度仅策略(α=0.0)会丢失关键物体细节,语义仅策略(α=1.0)会破坏背景完整性。

剪枝率敏感性:figure 5显示,致密化阶段剪枝率0.6、微调阶段0.3为最优配置,可在PSNR 34.63与训练时间82分钟间实现平衡,剪枝率过高会降低保真度,过低则延长训练时间。

四、研究结论

PAGS通过“语义引导的资源分配”与“优先级驱动的渲染加速”,打破了动态驾驶场景3D重建中“保真度-效率”的固有权衡:

  1. 语义引导剪枝与正则化确保计算资源集中于关键物体,避免非关键元素的冗余消耗;
  2. 优先级渲染借助硬件遮挡剔除,将渲染速度提升至350+ FPS,同时控制保真度损失;
  3. 在Waymo、KITTI数据集上的验证表明,该方法能以更短训练时间、更低硬件开销,实现更高质量的关键物体重建,为3DGS在自动驾驶中的实用部署提供了核心技术支撑。

参考

[1]PAGS: PRIORITY-ADAPTIVE GAUSSIANSPLATTINGFORDYNAMICDRIVINGSCENES

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论