2025-07-15 ICCV25！百度U-Vilar：视觉定位多任务SOTA，无痛兼容端到端框架~

原文链接：https://mp.weixin.qq.com/s/RyIdPZTQvDwGLZSVDFUpxw

引言

在城市环境中，建筑物、隧道等障碍物会严重干扰 GNSS（全球导航卫星系统）信号，使得依赖 GNSS 的定位不够可靠。因此，视觉定位技术在这类场景中显得尤为关键。

传统方法依赖于图像与三维地图的特征匹配，但对视角和光照变化敏感，且大规模三维地图的构建成本高。主流基于神经网络的端到端定位方法往往会在不同初始范围和定位精度之间权衡，且其精度由视觉感知的误差和地图匹配本身的误差耦合决定。

作为人类决策系统或自动驾驶端到端规划系统的关键部分，需要支持不同格式的地图并在不同范围内实现精确定位，且能解耦输出感知不确定度和定位不确定度，用于修正定位精度以及减少在决策系统内的误差传递。

U-VILAR 通过对感知不确定度和定位不确定度的分别建模，有效缓解了上述问题，并在大范围的重定位和小范围内的精细定位任务中展现了当前最好的效果。

论文链接：https://arxiv.org/abs/2507.04503v1

方法

U-ViLAR 包含两个关键模块：

PU-Guided Association：感知不确定性引导的视觉与地图特征关联；
LU-Guided Registration：定位不确定性引导的精细配准。

3.1 BEV 特征提取与融合

3.2 感知不确定性引导的关联（PU-Guided Association）

3.3 定位不确定性引导的配准（LU-Guided Registration）

粗位姿概率建模

实验结果

数据集我们在三个数据集上评估方法：

nuScenes：广泛使用的自动驾驶数据集，含1,000个场景，训练集28,000+帧，验证集6,000帧；
KITTI：包含39.2公里视觉里程计序列；
自采SRoad数据集：50万+帧，含复杂道路结构（60%+场景含交叉口、合流区、拥堵区域或高架桥下区域，详见附录）。

任务、指标与对比方法实验分为两类任务：

(a) 细粒度定位：在nuScenes和SRoad数据集上，基于HD地图与ICP基线方法对比，使用MAE和RMSE评估性能；
(b) 大规模重定位：在nuScenes、KITTI和SRoad上使用OSM地图输入，计算横向/纵向/航向角召回率（阈值1m/3m/5m）。

实现细节

细粒度定位：对HD地图施加小扰动（旋转±2°，平移±2m）模拟GPS噪声，提取120m×120m搜索区域；
重定位：施加大扰动（旋转±30°，平移±30m）处理显著位姿偏差，搜索128m×128m区域。

结果

在细粒度定位任务中，U-ViLAR在nuScenes和SRoad数据集上均取得了最佳性能，显著降低了定位误差。在大规模重定位任务中，使用OSM作为地图输入，在KITTI、nuScenes和SRoad数据集上也均优于现有方法，展现了其在粗定位和细定位中的鲁棒能力。此外，U-ViLAR在NVIDIA V100 GPU上可达到28帧/秒的运行速度，在NVIDIA Orin平台上通过优化可达到15帧/秒。

消融研究

通过一系列消融实验验证了感知不确定性引导的关联和定位不确定性引导的配准等关键组件的有效性。结果表明，这些组件对定位性能有显著影响，去除任一组件都会导致性能下降。

结论

本文提出的U-ViLAR网络整合了关联和配准的优势，在多种定位任务上展现了强大的性能。通过设计全局和局部关联约束，并在感知不确定性的引导下进行关联，再利用定位不确定性引导的配准获得精确定位，该方法在多个数据集上均显著优于现有方法。未来的工作将专注于在极具挑战性的场景中优化定位精度，并提高模型的泛化能力，以实现能够支持不同数据集和多种地图的统一模型。

参考

[1]U-ViLAR: Uncertainty-Aware Visual Localization for Autonomous Driving via Differentiable Association and Registration

2025-07-15 ICCV25！百度U-Vilar：视觉定位多任务SOTA，无痛兼容端到端框架~

发表回复取消回复

Categories

Archives

2025-07-15 ICCV25！百度U-Vilar：视觉定位多任务SOTA，无痛兼容端到端框架~

发表回复 取消回复

Categories

Archives

发表回复取消回复