2025-11-07 突破generalization瓶颈!StereoCarla高保真数据集重塑立体匹配技术

原文链接:https://mp.weixin.qq.com/s/rfbRloGQ4u__AO9uaIpgbg

核心结论

StereoCarla 是基于CARLA模拟器构建的高保真合成立体数据集,通过丰富的相机配置、环境条件设计,解决了现有数据集多样性不足的问题,在 4 个主流基准测试中,其训练模型的跨域泛化精度显著超越 11 个现有数据集,且兼容多数据集联合训练,为自动驾驶鲁棒深度感知提供了关键支撑。

论文地址https://arxiv.org/pdf/2509.12683

一、研究背景与痛点

立体视觉的核心价值

立体匹配技术是自动驾驶和机器人深度感知的核心,通过双相机图像对生成视差图来估算深度。相比激光雷达(LiDAR),它具有成本低、 latency 低、输出密集的优势,是实用化部署的优选方案。

现有数据集的三大局限

  • 场景单一:多聚焦于固定城市场景(如 KITTI)或室内合成场景(如 SceneFlow),缺乏真实驾驶的复杂变化。
  • 配置固化:相机基线、视角等参数变化少,无法适配不同硬件和行驶姿态。
  • 环境单一:缺少天气、光照等动态环境变化,导致模型泛化能力弱。

图1(文档引言部分):直观展示不同数据集训练模型的零样本泛化性能,StereoCarla 全场景误差最低,优势显著。

表I(相关工作部分):横向对比 17 个数据集的场景类型、分辨率、基线等核心参数,凸显 StereoCarla 在多样性和配置灵活性上的突破。

二、StereoCarla 数据集核心设计

核心优势:全方位多样性

  • 相机配置多样性:基线覆盖 10-300cm(远超现有数据集的固定范围),支持 0°/5°/15°/30° 横滚角、水平/30° 下倾角,传感器高度可灵活调整。
  • 环境条件丰富性:包含晴天、多云、雾、雨、夜间、风暴、日落 7 种天气,模拟真实驾驶中的光照和能见度变化。
  • 高规格数据质量:图像分辨率达 1600×900 像素,提供密集视差图和深度图作为真值,单数据集样本量达 69.3 万对(覆盖 CARLA 8 个城镇场景)。

数据分布细节

表 II(数据集部分):明确不同城镇、相机姿态(横滚、俯仰)下的样本数量,其中正常配置样本 12.4 万对,多角度配置样本均超 11 万对,数据分布均衡。

图 2(数据集部分):展示不同基线、视角下的图像示例及对应深度图/视差图,直观呈现数据多样性。

图 3(数据集部分):示意相机基线配置方案,清晰说明多基线设计逻辑。

三、实验验证与核心成果

实验设计

  • 基线模型:采用 NMRF-Stereo(SwinTransformer  backbone),基于 OpenStereo 框架训练。
  • 测试基准:跨域测试覆盖 KITTI2012、KITTI2015、Middlebury、ETH3D 四大主流数据集。
  • 评估指标:KITTI 用 D1-all 误差,Middlebury 用 Bad 2.0 误差,ETH3D 用 Bad 1.0 误差,全面衡量泛化能力。

三大核心实验结果

  1. 单数据集泛化:表 III(实验部分)显示,StereoCarla 训练模型的平均误差仅 5.32,较第二名 Tartanair(7.02)降低 24%,在 ETH3D 数据集上误差低至 3.17,远超其他数据集。

多数据集联合训练:表 IV(实验部分)证明,StereoCarla 作为基础数据集,与 2-3 个其他数据集组合(MIX 3/4)即可实现高性能,全数据集组合(MIX 9)平均误差达 4.22,创最佳记录。

  1. 消融实验验证关键设计
    • 基线多样性:表 VI(实验部分)显示,融合所有基线训练的模型,域内平均 EPE 仅 1.69,跨域性能最优,证明多基线设计的必要性。

视角多样性:表 VII(实验部分)表明,融合所有视角训练的模型,域内平均 EPE 1.46,显著优于单一视角训练(如 30° 横滚角训练模型 EPE 5.84)。

天气多样性:表 VIII(实验部分)显示,加入天气变化训练后,模型平均误差从 5.45 降至 5.32,鲁棒性提升。

图 4(实验部分):定性对比不同数据集训练模型的视差图输出,StereoCarla训练模型的物体边界更清晰,细节还原更准确。

表 V(实验部分):对比有无 StereoCarla 的多数据集组合性能,缺失后平均误差从 4.37 升至 7.48,凸显其核心支撑作用。

四、核心贡献与应用价值

四大核心贡献

  1. 构建了首个覆盖多基线、多视角、多天气的高保真驾驶立体数据集,填补现有数据空白。
  2. 实证证明其泛化性能超越 11 个主流数据集,为立体匹配算法提供更强训练基础。
  3. 提供完整的基准测试框架和公开代码/数据,助力领域复用。
  4. 验证了“几何多样性+环境多样性”对模型泛化的关键作用,为数据集设计提供方法论。

实际应用价值

  • 降低自动驾驶感知系统成本:减少对激光雷达的依赖,通过低成本相机实现高精度深度感知。
  • 提升极端场景可靠性:模型经多天气、多姿态训练,在雾天、夜间等复杂场景下仍能稳定工作。
  • 支持多硬件适配:多基线设计适配不同车型的相机安装方案,无需重新训练模型。

五、总结

我们提出高保真合成立体数据集StereoCarla,基于CARLA模拟器构建,含多样相机配置(10-300cm基线等)、7种天气条件,共693435 个立体图像对(1600×900分辨率)。以NMRF-Stereo为基线模型,在KITTI2012等4个基准测试,其训练模型平均误差5.32,超11个现有数据集;融入多数据集训练也能提升性能,为自动驾驶立体匹配提供优质数据支撑,代码和数据已开源。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论