2025-10-20 哈工大&理想PAGS：自驾闭环仿真新SOTA！

原文链接：https://mp.weixin.qq.com/s/sq30NSfUUOvSDZQ0tEDkOA

一、研究背景与核心问题

动态大规模城市环境的3D重建是自动驾驶系统的核心基础，支撑仿真测试、合成数据生成、数字孪生等关键应用。随着3DGS技术的出现，该领域实现了实时、照片级的新视角合成突破，主流方法（如StreetGS、DrivingGaussian）会将场景分解为静态背景与独立建模的动态前景，以应对城市场景的复杂性。

但现有方法存在一个关键瓶颈：语义无关的资源分配。无论是追求加速的Speedy-Splat、FlashGS，还是常规3DGS方法，均采用“均匀优化”范式，无法区分“对驾驶安全关键的元素”（如行人、车辆、骑行者）与“非关键元素”（如远处建筑、路边植被）。这导致计算资源被大量浪费在非关键元素的细节优化上，而关键物体的高频细节（如车辆轮廓、行人动作）因资源不足被平滑或模糊，最终陷入“保真度与计算成本不可兼得”的困境。

从figure 1的定性对比可直观看到：该方法仅需1小时训练，就能实现比StreetGS（3小时训练）、EmerNeRF（11小时训练）更清晰的重建效果，直接印证了现有方法在效率与质量平衡上的不足。

二、核心方法设计

为解决语义无关的资源错配问题，PAGS提出“将任务感知的语义优先级嵌入重建与渲染全流程”，核心包含三大模块：

组合高斯场景表示

语义引导的剪枝与正则化

该模块通过“语义优先级”实现资源精准分配，减少非关键元素的冗余计算，同时保留关键物体细节，包含三步核心设计：

离线语义场景分解

作为一次性预处理步骤，先通过Segment Anything Model（SAM）生成所有图像的实例掩码，再结合语义分割模型为掩码分配标签，最终将场景元素划分为两类：

关键类：车辆、行人、骑行者（直接影响驾驶决策）；
非关键类：建筑、道路、植被（对驾驶安全影响极小）

语义引导剪枝

自适应随机 dropout

优先级驱动的渲染 pipeline

该模块将语义优先级转化为渲染效率，通过硬件加速的遮挡剔除，减少无效着色计算，实现实时渲染（FPS超350），分为两个关键pass：

Occluder Depth Pre-Pass

Color Pass

利用预渲染的深度图加速最终着色：

硬件加速剔除：通过GPU的Early-Z测试，将每个待渲染片段的深度与Z-buffer中的深度对比，直接剔除被遮挡的片段，跳过后续昂贵的着色计算；
半透明处理：对每个tiles执行“从后往前排序”，排序键结合语义优先级与深度，确保半透明高斯的alpha混合正确性。

从table 2可见，该pipeline使渲染速度从134 FPS（仅用语义剪枝）提升至353 FPS，同时模型大小（530 MB）、显存占用（6.1 GB）显著低于其他方法，适配车载硬件资源约束。

三、实验验证与结果分析

实验在Waymo（3个前置相机）与KITTI（立体相机）数据集上展开，以PSNR、SSIM、LPIPS衡量重建保真度，以训练时间、FPS衡量效率，对比EmerNeRF、PVG、StreetGS、DeSiRe-GS等主流方法，硬件为NVIDIA RTX 4090。

定量结果

重建保真度：在Waymo数据集上，PAGS的PSNR达34.63、SSIM达0.933，LPIPS与StreetGS持平（0.073），关键物体细节（如车辆边缘）的PSNR（35.97，table 4）显著高于其他方法；KITTI数据集上表现一致，PSNR 34.58、SSIM 0.947，均为最优。
效率：训练时间仅1h22m（Waymo）、1h31m（KITTI），远低于StreetGS（3h+）、EmerNeRF（11h+）；渲染速度达353 FPS（Waymo）、365 FPS（KITTI），是StreetGS（136 FPS）的2.6倍，EmerNeRF（0.23 FPS）的1500+倍。
部署友好性：模型大小530 MB、显存占用6.1 GB，仅为EmerNeRF（1217 MB、10.5 GB）的约1/2，适配车载硬件。

定性结果

最终效果：PAGS重建的关键物体（如车辆、行人）边缘更锐利，背景细节（如道路标线）更清晰，无其他方法常见的模糊或伪影；
收敛速度：训练1小时后，PAGS已能生成高保真结果，而EmerNeRF、PVG等方法同时间输出仍存在明显模糊，印证其高效的优化能力。

消融实验

组件贡献：table 3显示，语义引导剪枝与正则化（SPR）单独使用时，PSNR达34.95、训练时间1h24m，优于传统剪枝+dropout（32.35、1h36m）；叠加优先级渲染（PDR）后，FPS从134提升至353，证明两模块协同价值。

混合度量有效性：table 4对比三种度量策略，仅PAGS的混合度量同时实现最高整体PSNR（34.63）与关键物体PSNR（35.97）；梯度仅策略（α=0.0）会丢失关键物体细节，语义仅策略（α=1.0）会破坏背景完整性。

剪枝率敏感性：figure 5显示，致密化阶段剪枝率0.6、微调阶段0.3为最优配置，可在PSNR 34.63与训练时间82分钟间实现平衡，剪枝率过高会降低保真度，过低则延长训练时间。

四、研究结论

PAGS通过“语义引导的资源分配”与“优先级驱动的渲染加速”，打破了动态驾驶场景3D重建中“保真度-效率”的固有权衡：

语义引导剪枝与正则化确保计算资源集中于关键物体，避免非关键元素的冗余消耗；
优先级渲染借助硬件遮挡剔除，将渲染速度提升至350+ FPS，同时控制保真度损失；
在Waymo、KITTI数据集上的验证表明，该方法能以更短训练时间、更低硬件开销，实现更高质量的关键物体重建，为3DGS在自动驾驶中的实用部署提供了核心技术支撑。

参考

[1]PAGS: PRIORITY-ADAPTIVE GAUSSIANSPLATTINGFORDYNAMICDRIVINGSCENES

2025-10-20 哈工大&理想PAGS：自驾闭环仿真新SOTA！

发表回复取消回复

Categories

Archives

2025-10-20 哈工大&理想PAGS：自驾闭环仿真新SOTA！

发表回复 取消回复

Categories

Archives

发表回复取消回复