2024-09-18【清华大学】用于鸟瞰图感知的视觉驱动2D监督微调框架

论文链接:https://arxiv.org/pdf/2409.05834

摘要

本文介绍了用于鸟瞰图感知的视觉驱动2D监督微调框架。视觉鸟瞰图(BEV)感知由于其卓越的感知能力,正在逐步取代成本高昂的基于激光雷达的感知系统,特别是在城市智能驾驶领域中。然而,这种类型的感知仍然依赖于激光雷达数据来构建真值数据库,这一过程既繁琐又耗时。此外,大多数量产的自动驾驶系统仅配备了环视相机传感器,缺乏用于精确标注的激光雷达数据。为了应对这一挑战,本文提出了一种基于视觉2D语义感知的BEV感知网络微调方法,旨在增强模型在新场景数据中的泛化能力。考虑到2D感知技术的成熟度和发展,本文方法大大降低了对高成本BEV真值的依赖,展现出广阔的工业应用前景。在nuScenes和Waymo公开数据集上进行的大量实验和比较分析证明了本文所提出方法的有效性。

主要贡献

本文的主要贡献总结如下:

1)本文提出了一种创新的方法,通过利用来自环视图像的2D信息来优化BEV模型,从而提高其在各种复杂场景中的适应性。该方法为缺乏激光雷达的量产车辆提供了一种低成本、高效的解决方案;

2)本文设计了一种有效的损失函数,其将3D感知结果与2D标注精确匹配,使得模型能够更深入地学习和理解复杂环境中的空间关系。该方法不仅提高了模型的准确性,还提高了其处理各种驾驶场景的能力;

3)本文在nuScenes和Waymo等多个公开数据集上进行了大量的实验,以验证所提出方法的有效性和优越性。实验结果表明,微调后的BEV模型在不同驾驶场景下的表现明显更好,这突显了其在实际自动驾驶应用中的巨大潜力。

论文图片和表格

总结

本文提出了一种使用环视相机的2D标注来微调BEV模型的新方法。通过将BEV模型的3D感知输出结果投影到图像平面上并且将其与人工标注的2D标签和相应的深度估计进行匹配,本文构建了一个损失函数来优化BEV模型参数。与依赖激光雷达生成3D真值的传统BEV模型不同,本文方法利用2D和深度估计监督,从而显著提高运行效率。在nuScenes和Waymo数据集上的实验结果证明了所提出方法的优越性能,这标志着首次成功验证了仅使用视觉传感器而没有用激光雷达来构建BEV感知真值。展望未来,计划将这种环视相机监督的BEV方法扩展到其它任务,例如局部地图构建和占用网络感知,从而进一步扩大其应用范围。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论