导读:本篇提出了一种用于鱼眼环视系统的无模式外参标定方法Click-Calib,它易于使用且无需任何特殊设置,并且在短距离和远距离处均能提供高精度。此外,它对关键点高度噪声具有鲁棒性。在内部数据集和公开的WoodScape数据集上的评估表明,与基线方法相比,Click-Calib具有更高的精度和鲁棒性。
论文标题:Click-Calib: A Robust Extrinsic Calibration Method for Surround-View Systems
论文作者:Lihao Wang
论文地址:https://arxiv.org/pdf/2501.01557
代码链接:https://github.com/lwangvaleo/click_calib
01 摘要
本文介绍了Click-Calib:一种鲁棒的环视系统外参标定方法。环视系统(SVS)是高级驾驶辅助系统(ADAS)的重要组成部分,它需要精确的标定结果。然而,传统的离线外参标定方法既繁琐又耗时,这是因为它们严重依赖于物理模式。此外,这些方法主要注重于车辆周围的短距离区域,这导致更远区域中的标定质量较差。为了解决这些局限性,本文提出了Click-Calib,这是一种用于离线SVS外参标定的无模式方法。该方法无需任何特殊设置,用户仅需要点击自然场景中地面上的一些关键点即可。与其它离线标定方法不同,Click-Calib通过最小化关键点的重投影距离误差来优化相机位姿,从而在短距离和远距离处实现精确标定。此外,Click-Calib支持单帧和多帧模式,后者提供了更好的结果。本文在内部数据集和公开的WoodScape数据集上的评估表明,与基线方法相比,Click-Calib具有更高的精度和鲁棒性。
02 介绍
基于相机的SVS是ADAS和自动驾驶的关键组成部分。它们广泛用于鸟瞰图(BEV)图像生成、泊车辅助和3D感知。典型的SVS由四个环绕车辆安装的宽视角鱼眼相机组成,它们提供了360°的覆盖范围,如图2所示。

图1| 由四个鱼眼相机组成的环视系统(SVS)
尽管当前的离线外参标定方法能够在车辆周围的目标区域提供精确的标定,但是这些区域大多在短距离范围内(通常小于5米,如图3所示)。

图2| 基于模式和基于光度方法的示例
这种局限性主要有两个原因:首先,对于基于模式的方法,距离受限于模式的物理尺寸以及标定空间;其次,对于基于光度的方法,由于合成BEV图像的质量在较远距离处急剧降低,因此标定范围也受到限制。
本文提出了Click-Calib,这是一种简单而鲁棒的SVS外参标定方法(如图1所示)。

图3| 本文所提出的Click-Calib
当车辆静止或者低速(小于30km/h)行驶时,可以应用该方法。用户无需进行任何特殊设置,仅需要在相邻相机的重叠区域中选择地面上的一些关键点。Click-Calib的标定结果在短距离和远距离(大于10米)均能维持高精度,这使其非常适用于远距离3D感知任务。
本文的贡献为如下三方面:
1)本文提出了Click-Calib,这是一种无需特殊设置或者标定模式的SVS外参标定方法。与其它需要从鱼眼到透视图像去畸变的鱼眼标定方法不同,它直接从原始鱼眼图像中优化标定参数,从而避免信息损失;
2)本文证明了光度误差不太适用于反映远距离BEV图像的质量。相反,本文引入了平均距离误差(MDE)作为更精确的度量方式;
3)本文方法在三种不同的车辆上进行评估。与其它离线标定方法相比,Click-Calib展现出显著的改进,特别是在远距离处。其它实验还证明了它对环境不确定性(例如每个关键点的高度变化)的鲁棒性。


图4| 鱼眼相机模型

3.3. 相机-车辆投影



3.5. 尺度模糊
尽管所提出的方法要求选择的地面点数量超过未知参数的数量,但是尺度模糊仍然存在(图5)。

图5| 尺度模糊
直观上而言,如果世界尺度减小,距离误差将相应降低。因此,如果在优化过程中没有引入尺度约束,那么最小化距离误差将最终导致世界尺度接近零,这在物理上是没有意义的。
为了解决这个问题,在优化过程中需要固定三个平移参数中的一个。在实践中,每个相机的高度被选为固定参数,因为它们易于测量。
04 实验
4.1. 实验设置
所提出的Click-Calib在两个数据集上进行测试:内部数据集(由两辆车采集,在以下部分称为汽车1和汽车2)和公开数据集WoodScape数据集(由一辆车采集)。所有这三辆车均装载四个鱼眼SVS相机,它们提供了自车周围360°的覆盖范围,相邻相机之间具有重叠区域,如图2所示。数据集中的图像分辨率为1280×800,而WoodScape数据集中的图像分辨率为1280×966。为了避免高速行驶时的图像不同步问题,这里仅考虑车速低于30km/h的图像帧。采集的图像涵盖了三个关键场景(室内泊车、室外泊车和城市驾驶),以证明所提出方法的鲁棒性。
对于每辆汽车,用于标定的帧被称为标定集(类似于机器学习中的训练集),用于评估的帧被称为测试集。在标定集和测试集中的鱼眼图像均是从连续图像序列中随机选择的。对于内部数据集中的汽车,首先使用基于模式的传统方法来标定SVS相机,该方法作为与Click-Calib比较的基准。对于WoodScape数据集中使用的汽车,将提供的标定结果作为基准。
在Click-Calib标定过程中,在每张SVS图像中手动选择关键点。为了确保优化后的标定结果在不同距离处维持高精度,每个重叠区域中至少需要选择10个关键点。
对于定量结果,本文使用逆透视映射(IPM)技术来生成BEV图像。IPM广泛应用于自动驾驶应用中,例如车道和停车位检测。假设世界是平的,它通过将相机图像投影到地面上来生成BEV图像。为了清晰地展示标定重投影的质量,叠加了每个相机重投影的所有像素。该可视化方法提供了一种直观的方法来评估标定精度,不精确的标定会导致BEV图像中出现严重的”重影”效应。


图6| 指标比较
4.3. 单帧标定
本文首先仅使用一帧作为标定集来执行Click-Calib。结果如表格1所示。

表1| 在不同距离处单帧标定结果的MDE(米制)
对于所有三辆汽车,本文提出的方法在MDE指标上均超越了基线。在较短的距离处(即靠近自车的区域),基线和Click-Calib均精确。然而,在更远的距离处(特别是超过10米),Click-Calib的标定结果明显优于基线。这是因为Click-Calib允许用户选择远距离的关键点(只要它们在相邻相机中可见,如图7所示),这在求解标定时引入了更多的几何约束。

图7| 远距离关键点示例
一些定性结果如图8所示。

图8| 定性结果
生成的BEV图像覆盖了车辆周围25m×25m的范围。与基线相比,Click-Calib提供了相邻相机之间更好的对齐,从而证明了其高精度。
4.4. 多帧标定
尽管所提出的方法已经可以仅使用一帧提供高质量的标定结果,但是也能使用多帧进行标定,以缓解单帧标定潜在的过拟合问题。
该实验在汽车1上进行。从连续的图像序列中,随机地选F择帧(其中F的范围从1到5)作为标定集,测试集与上一节相同。结果如表格3所示

表2| 多帧标定结果
MDE在使用三帧时明显降低,并且在使用三帧以上时稳定。这种改进可以归因于两个主要因素。首先,额外的帧提供了更多的关键点以及自车周围更广泛的覆盖范围,从而降低了仅使用一帧的过拟合效应。其次,更多的帧还有助于平滑地面的不平坦区域,从而实现更精确的标定结果。


图9| 鲁棒性测试设置
鲁棒性测试的结果如表格2所示。

表3| 鲁棒性测试结果
地面点高度的噪声仅在标定中引入微小差异。这些差异可以认为是Click-Calib的标定误差的近似上限,这是因为误差的主要来源是地面点的高度。有趣的是,斜坡情况下的MDE甚至比无噪声情况下更小。本文认为,这是因为假设的斜坡与实际斜坡部分符合所导致的。
05 总结
本文提出了Click-Calib,这是一种用于鱼眼环视系统的无模式外参标定方法。该方法仅需在相邻相机重叠区域的地面上点击几下即可实现精确标定。与传统的基于模式的方法和最近的基于光度的方法相比,Click-Calib具有三个主要优势:(i)它易于使用且速度较快,并且无需特殊设置;(ii)它在短距离和远距离(大于10米)处均能提供高精度;(iii)它对关键点高度噪声具有鲁棒性。这些特征使其特别适用于最近流行的基于BEV的感知方法。
局限性和未来工作:尽管Click-Calib在所有距离处均能提供可靠的标定结果,但是它受到某些限制。首先,它仅在车辆静止或者低速(低于30km/h)行驶时有效。其次,它需要手动点击,这对用户而言可能较为繁琐。因此,它被设计用于小批量汽车的离线标定,而不是大规模量产。为了将其转换为更通用且全自动的方法,未来工作将着重于自动关键点选取,并且将关键点从地面扩展到整个3D场景。

发表回复