2026-01-08 小米&杭电提出ParkGaussian:业内首个泊车场景重建算法,效果还不错

原文链接:https://mp.weixin.qq.com/s/37K0bbxIaa2Qmwdf0uWpSw

高斯泼溅的风,刮到了自驾的每个角落。

一大早看到了小米&杭电在泊车场景重建中的工作ParkGaussian。相比英伟达3DGUT和OmniRe提升挺大,分享给大家。

泊车是自动驾驶系统(ADS)的关键任务,在车位拥挤且无GPS信号的环境中面临独特挑战。现有研究主要集中于二维车位感知、建图与定位,而三维重建领域的探索仍显不足——该技术对于捕捉泊车场景中的复杂空间几何结构至关重要。单纯提升重建泊车场景的视觉质量并不能直接助力自动泊车,因为泊车系统的核心入口是车位感知模块。

为解决这些局限,小米汽车联合杭州电子科技大学构建了首个专为泊车场景重建设计的基准数据集ParkRecon3D,其包含来自四台已完成外参标定的环视鱼眼相机的传感器数据,以及密集的车位标注信息。在此基础上,本文提出了ParkGaussian框架,这是首个将3D高斯Splatting(3DGS)融入泊车场景重建的方案。为进一步提升重建结果与下游车位检测任务的对齐度,本文引入了车位感知重建策略,利用现有泊车感知方法增强车位区域的合成质量。在ParkRecon3D上的实验表明,ParkGaussian实现了最先进的重建质量,且能更好地保障下游任务的感知一致性。

  • 论文标题:ParkGaussian: Surround-view 3D Gaussian Splatting for Autonomous Parking
  • 论文链接:https://arxiv.org/abs/2601.01386
  • 项目主页:https://github.com/wm-research/ParkGaussian

一、背景回顾

自动泊车是自动驾驶系统(ADS)的重要组成部分。与通常在结构化且具备GPS信号的环境中进行的道路行驶不同,泊车场景往往发生在狭窄的地下空间、拥挤的车位以及昏暗的光照条件下。这些因素给精准感知与定位带来了挑战,凸显了针对泊车场景研发专用技术的必要性。

早期研究主要聚焦于泊车感知,尤其是车位检测,旨在通过环视图像识别并定位车位。这些方法通常采用逆透视映射(IPM)将多视角鱼眼图像转换为鸟瞰图(BEV)表示,进而实现车位感知。在这些检测模块的基础上,后续研究探索了泊车场景下的同步定位与地图构建(SLAM)技术——车位地标被用作可靠参考,以提升无GPS信号、视觉特征重复环境中的定位鲁棒性。近年来,部分研究提出了端到端框架,可从传感器输入中联合学习感知、规划与控制能力,并基于在CARLA仿真器中采集的仿真泊车数据集进行训练。

尽管这些方法在仿真泊车规划任务中表现有效,但CARLA仿真器与真实泊车环境之间仍存在较大差距。这一差距表明,需要一个高保真仿真器来评估复杂泊车场景下的车位感知与闭环规划性能。

为弥合仿真与真实环境之间的鸿沟,近期研究日益关注通过四维场景建模实现真实驾驶仿真,包括针对道路级场景的重建与生成方法。在重建领域,早期方法基于神经辐射场(NeRF)构建街道场景表示,开启了驾驶环境重建的初步探索,但这些方法存在效率低下的问题。基于3D高斯Splatting(3DGS)的最新研究显著提升了渲染速度,其通过框监督或自监督方式实现动态街道场景的建模。在生成领域,基于扩散模型与可控生成框架的最新模型可根据场景布局或文本描述合成街道场景。

这些方法在典型的道路行驶场景中实现了照片级的合成质量。在此基础上,部分研究进一步开发了强化学习流水线与闭环仿真系统,用于自动驾驶系统的训练与评估。

然而,现有驾驶仿真器主要聚焦于道路行驶场景建模,而对泊车场景仿真的探索仍较为匮乏。此外,以往的重建方法过分强调视觉保真度,却忽视了仿真的核心目标——生成与感知对齐的合成数据,以真实评估下游模型的性能与局限。对于自动泊车而言,车位检测模块是系统的核心入口,因此确保车位相关区域的视觉保真度与下游感知模型的对齐至关重要。

为解决这些问题,本文首先构建了名为ParkRecon3D的基准数据集(图1),专为泊车场景重建设计。该数据集基于AVM-SLAM的开源数据集扩展而来,包含在地下停车场中由四台已标定鱼眼相机采集的传感器数据。ParkRecon3D提供了超过4万帧同步传感器数据和6万个车位标注,且所有相机均完成外参标定。基于该基准数据集,本文提出了ParkGaussian框架——首个适配环视鱼眼图像的3D高斯Splatting重建方案,可实现高质量的泊车场景三维重建。此外,本文引入了车位感知重建策略,通过两种广泛使用的车位检测方法(DMPR-PS和GCN-Parking)以可学习的方式识别车位区域。该策略不仅提升了车位区域的合成质量,还增强了与下游感知任务的对齐性,为自动泊车系统提供了可靠的仿真工具。

本文的主要贡献如下:

  1. 构建了首个专为泊车场景三维重建设计的基准数据集ParkRecon3D,包含来自地下停车场的超过4万帧同步鱼眼传感器数据、6万个精确标注的车位以及已标定的外参信息。
  2. 提出了ParkGaussian框架,该框架将3DGS适配于环视鱼眼传感器,并融入车位感知重建策略——利用车位检测器增强任务关键区域(车位区域)的重建保真度。
  3. 在ParkRecon3D上进行了大量实验,验证了ParkGaussian在重建质量上的先进性,以及其与下游感知任务更强的对齐能力。

二、ParkGaussian方法详解

本节首先介绍ParkRecon3D基准数据集的构建,随后回顾3D高斯泼溅(3DGS)的基础理论及其与3DGUT的扩展方法,最后详细阐述构成ParkGaussian核心的IPM投影与车位感知重建模块。

ParkRecon3D基准数据集

目前尚无专门针对停车环境3D重建的基准数据集,因此本文基于AVM-SLAM所使用的开源数据集进行重组与扩展,构建了ParkRecon3D。数据采集于一个面积约为220米×110米、包含430余个停车位的地下停车场。实验车辆搭载了量产级环视监控系统,车身前后左右四个方位均安装有鱼眼相机,每个相机以10Hz的频率采集图像,分辨率为1280×960。该系统还能通过四视角鱼眼输入合成分辨率为1354×1632的逆透视映射(IPM)图像。数据集包含四个具有代表性的场景,涵盖了多种停车布局。

为给重建提供精确的几何参考,本文采用COLMAP对四个鱼眼相机的外参进行校准,而非依赖在地下环境中噪声较大的轮式编码器和IMU里程计。针对停车位感知任务,本文遵循相关标注协议,在BEV域手动标注车位角点,为车位级检测提供高质量监督信息。基于这些数据,本文构建了首个专为停车场景3D重建设计的基准数据集ParkRecon3D,包含超过40K帧同步多鱼眼图像、60K个经过人工验证的停车位标注以及校准后的外参数据。该基准数据集将向学术界公开,作为地下停车环境中3D重建模型训练与评估的综合数据集。

预备知识

3D高斯泼溅

基于UT的投影3D高斯泼溅

这种基于UT的投影无需为每个鱼眼相机模型推导雅可比矩阵,在强畸变条件下能生成更稳定的2D高斯足迹。在ParkGaussian中,该模块使3D高斯泼溅能够直接基于环视鱼眼图像进行训练,显著提升了地下停车场景中的几何稳定性。

可微分环视逆透视映射

车位感知重建

停车角点引导

车位边缘感知扩展

训练

在优化过程中,ParkGaussian首先通过原始3D高斯泼溅的光度渲染损失训练20000次迭代,随后结合对齐损失和车位感知损失再训练10000次迭代。

光度渲染损失

对齐损失

车位感知重建损失

总损失

三、实验结果分析

实验设置

主要结果

新视图合成

实验结果表明,ParkGaussian在ParkRecon3D基准数据集上取得了最先进的性能。以往的方法性能较差,原因在于它们仅强调视觉保真度,而忽略了仿真的核心目标。为更直观地理解模型的重建性能,本文将本文的方法与以往工作的结果进行了并列视觉对比。结果显示,在地下车库的固有约束下,尽管3DGUT和Self-Cali-GS能够构建整体场景的空间拓扑结构,但它们在细节表示的鲁棒性方面存在明显局限;OmniRe的重建质量显著较差,所有视角均出现严重模糊和结构丢失。

相比之下,本文的方法通过引入车位感知重建策略(利用停车位检测器提升任务关键车位区域的重建保真度),在所有视角下都与真实场景实现了高度视觉对齐,能够实现更精确的场景重建。

![(https://files.mdnice.com/user/22429/bf75bf18-5419-4adc-b514-e4f698606861.jpg)

停车位检测

实验结果表明,本文的车位感知重建策略大幅提升了停车位检测性能。两个感知网络在本文的重建模型上运行时,均取得了接近真实场景的检测性能;并且在重建过程中融入感知模块后,两种方法的性能都有了显著提升。本文还提供了真实图像上的检测结果与基于本文重建模型渲染图像的检测结果的视觉对比。从视觉上可以观察到,本文的方法既保持了全局场景的高保真重建,又准确再现了停车位的细粒度结构。

车位感知策略的消融实验

本文进行了全面的消融实验,以剖析车位感知重建框架中各个组件的作用。实验评估了五个变体:(1)无车位感知线索的直接IPM监督;(2)仅使用感知输出的特征级监督;(3)使用真实IPM特征的仅教师加权;(4)使用渲染IPM特征的仅学生加权;(5)融合教师-学生加权与分布对齐的完整车位感知设计。

消融实验结果揭示了所提车位感知策略有效性的若干重要见解:首先,单纯应用IPM空间损失会导致重建质量不佳,且停车位检测性能极弱,这主要是因为多视图投影在视图边界处产生冲突,给IPM域引入了额外噪声;特征级监督虽然提升了渲染分数,但仍无法恢复可靠的车位几何结构,这表明感知模型和重建模型的优化目标并不一致,它们的特征分布差异显著,导致重建几何偏离了感知网络所需的结构;仅教师加权和仅学生加权都通过将监督集中在与车位相关的区域,大幅提升了性能,但两者表现出互补特性——仅教师加权提供稳定但适应性较弱的监督,而仅学生加权能够适应渲染预测但更容易受到噪声影响;本文的完整车位感知策略通过融合教师-学生加权并施加分布对齐约束,在两个场景中均取得了最佳结果,不仅实现了最高的渲染质量,还通过使重建与感知模型对齐,显著提升了下游任务的精确率和召回率,这表明将结构先验与预测一致性相结合对于稳健的停车感知重建至关重要。

四、当前局限

ParkRecon3D 仍面临地下停车场环境的若干固有挑战,包括室内镜面反射、高度重复纹理,以及弱光环境下长曝光导致的运动模糊。这些特征难以精确建模,将在未来的研究工作中进一步解决。

五、结论

本文提出了 ParkRecon3D —— 全新的框架,将 3D GS与车位重建策略相结合,用于高质量停车场场景建模。基于所提出的 ParkRecon3D 基准数据集,该方法在地下停车场环境中实现了精准高效的 3D 重建,同时提升了车位区域的合成质量。ParkRecon3D 为未来自动驾驶泊车系统的开发与评估提供了可靠基础。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论