原文链接:https://mp.weixin.qq.com/s/e9uqUDlTmEwON3D2rbMjfw

论文链接:https://arxiv.org/pdf/2503.00862
摘要
本文介绍了自动驾驶中基于解耦的BEV神经匹配实现高效的端到端视觉定位。精确的定位在高级自动驾驶系统中起着重要作用。传统的基于地图匹配的定位方法通过显式地将地图元素与传感器观测进行匹配以求解位姿,这通常对感知噪声较为敏感,因此需要成本高昂的超参数调试。本文提出了一种端到端的定位神经网络,它从环视图像中直接估计车辆位姿,而无需显式地将感知结果与高精地图进行匹配。为了确保效率和可解释性,本文提出了一种基于解耦的BEV神经匹配的位姿求解器,它在基于差分采样的匹配模块中估计位姿。此外,通过解耦受到位姿每个自由度影响的特征表示,使得采样空间大大减小。实验结果表明,所提出的网络能够进行分米级定位,在纵向、横向位置和偏航角方面的平均绝对误差为0.19m、0.13m和0.39°,同时在推理内存使用方面降低了68.8%。
主要贡献
本文的主要贡献总结如下:
1)本文精心设计了一个端到端定位网络,它使用环视相机感知到的语义BEV特征进行完全可微分且可解释的位姿估计,从而通过轻量级高精地图来实现分米级定位;
2)本文提出了一种网络中基于解耦的BEV神经匹配的位姿求解器,用于提取幅频特征和轴特征,以独立求解3自由度位姿。该方法极大地降低了计算成本,同时实现了与传统解决方案相当的定位性能;
3)本文在公开数据集上进行综合实验和详细的消融分析,以验证所提出方法的有效性。
论文图片和表格








总结
本文通过提出一种使用基于解耦BEV神经匹配的位姿求解器的E2E定位网络来解决视觉到高精地图的定位问题,确保了可解释性和计算效率,同时实现了分米级的定位精度。该网络通过完善的BEV感知主干网络和栅格化地图编码器来提取高维语义BEV特征和地图特征,克服了视觉图像和矢量化高精地图数据之间的模态差异。然后,将这两种特征传入基于解耦BEV神经匹配的位姿求解器中,其中受到纵向、横向位置和偏航角影响的BEV表示被解耦,使得能够以分而治之的方式独立求解3自由度位姿。本文在nuScenes数据集上对所提出的网络进行全面分析,结果表明,它能够在纵向、横向位置和偏航角方面分别实现0.19m、0.13m和0.39° MAE的高精度定位。此外,它将样本的数量从Nx×Ny×Nα减少到Nx+Ny+Nα,与传统的完全BEV神经匹配的方法相比,推理内存节省了68.8%,这对于高级自动驾驶精确且高效的位姿估计至关重要。

发表回复