
论文链接:https://arxiv.org/pdf/2409.11706
摘要
本文介绍了RopeBEV:鸟瞰图中的多相机路侧感知网络。鸟瞰图(BEV)中的多相机感知方法在自动驾驶中得到广泛应用。然而,由于路侧和车侧场景之间的差异,目前缺少路侧多相机BEV解决方案。本文系统性地分析了相比于车侧场景的路侧场景多相机BEV感知中的关键挑战。这些挑战包括相机位姿的多样化、相机数量的不确定性、感知区域的稀疏性和方向角的模糊性。作为回应,本文引入了RopeBEV,这是首个稠密的多相机BEV方法。RopeBEV引入了BEV增强,以解决由不同相机位姿造成的训练平衡问题。它通过结合CamMask和ROIMask,分别支持不同的相机数量和稀疏感知。最后,利用相机旋转嵌入来解决方向模糊问题。本文方法在现实世界公路数据集RoScenes上排名第一,并且在涵盖50多个十字路口和600多个相机的私有城市数据集上证明了其实用价值。
主要贡献
本文的贡献总结如下:
1)本文系统性地分析了路侧和车侧多相机感知场景之间的差异,包括相机位姿的多样性、相机数量的不确定性、感知区域的稀疏性和方向角的模糊性;
2)本文提出了首个用于路侧场景的稠密BEV方法,即RopeBEV,它结合了专门为解决四种差异而设计的改进:BEV增强、CamMask、ROIMask和相机旋转嵌入;
3)RopeBEV在现实世界公路数据集RoScenes上排名第一,并且在涵盖50多个十字路口和600多个相机的大规模私有城市数据集上证明了其工业实用性。
论文图片和表格










总结
本文系统性地分析了路侧和车侧多相机感知场景之间的差异,包括相机位姿的多样性、相机数量的不确定性、感知区域的稀疏性和方向角的模糊性。为了应对这些挑战,本文提出了RopeBEV,这是首个用于路侧多相机感知的稠密BEV方法。RopeBEV引入了BEV增强,以解决由路侧相机不同位姿造成的训练可学习查询中的不平衡问题,采用CamMask和ROIMask以支持不同数量的相机和自定义的感知区域,并且通过相机旋转嵌入来解决方向角模糊问题。在RoScenes和私有数据集上的实验证明了RopeBEV卓越的路侧感知性能。
局限性和未来工作:尽管RopeBEV支持车道分割和场景建图任务,但是由于缺乏用于这些任务的路侧多相机数据集,目前无法评估其性能。此外,由于物理限制,路侧多相机系统之间的时间戳差异通常大于车侧系统中的时间戳差异,这可能会导致输入帧内的信息没有对齐,从而影响感知输出结果。显式结合跨时间维度的时间嵌入或者特征对齐是打算研究的未来方向之一。此外,本文的目标是扩展RopeBEV以支持跟踪和预测任务,并且探索其它数据模态(例如激光雷达或者雷达)的集成,以实现多模态路侧BEV方法。

发表回复