2025-08-26【清华大学】ArbiViewGen:基于稳定扩散模型的自动驾驶可控任意视角相机数据生成方法

原文链接:https://mp.weixin.qq.com/s/XMdyr4y4bn0-daaV1ychRQ

论文链接:https://arxiv.org/pdf/2508.05236

摘要

本文介绍了ArbiViewGen:基于稳定扩散模型的自动驾驶可控任意视角相机数据生成方法。任意视角图像生成在自动驾驶领域具有巨大的应用潜力,但是由于缺乏外推视图的真值数据,这阻碍了高保真生成模型的训练,因此它仍然是一项具有挑战性的任务。本项工作提出了ArbiViewGen,这是一种新的基于扩散的框架,用于从任意视角生成可控的相机图像。为了解决未见过视图中缺乏真值数据的问题,本文引入了两个关键组成部分:特征感知自适应视图拼接(FAVS)和跨视图一致性自监督学习(CVC-SSL)。FAVS采用分层匹配策略,它首先使用相机位姿来建立粗略的几何对应关系,然后通过改进的特征匹配算法进行细粒度对齐,并且通过聚类分析来识别高置信度匹配区域。在此基础上,CVC-SSL采用一种自监督训练范式,其中使用扩散模型从合成的拼接图像中重建原始的相机视图,在不需要外推数据监督的情况下实现跨视图一致性。本文框架仅需要多相机图像及其关联的位姿进行训练,而无需额外的传感器或者深度图。据作者所知,ArbiViewGen是首个能够在多车配置中生成可控的任意视图相机图像的方法。

主要贡献

本文的主要贡献总结如下:

1)本文将几何变换与分层特征匹配相结合来开发一种纯视觉图像拼接算法,它能够通过精确对齐和纹理融合来自动构建用于外推视图的高质量伪真值数据,为训练提供了可靠的监督;

2)本文引入了一种基于循环重建的自监督学习范式,它在视图之间建立了双向映射。该设计有效地克服了新视图中缺乏真值监督的问题,从而大大提高了生成质量;

3)为了实现定量评估,本文提出了一种新的图像质量评估策略,它将从真实图像中采样的彩色点云投影到目标视图中。这为跨不同车辆架构的可控任意视图生成建立了首个端到端评估框架。

论文图片和表格

总结

本项工作引入了ArbiViewGen,这是一种可控的基于扩散的框架,用于自动驾驶场景中的任意视图图像生成。本文方法通过集成特征感知拼接模块(FAVS)和跨视图一致性自监督学习策略(CVC-SSL),有效地缓解了外推视图缺乏真值监督的挑战,仅使用多相机图像和位姿信息实现了任意视图合成。本文所提出的框架提高了自动驾驶系统在各种传感器配置下的适应性和鲁棒性,有助于跨平台部署和可扩展的数据重用。尽管该框架取得了有前景的实验结果,但是它在高度动态环境中捕获细粒度结构化细节信息方面仍然面临局限性,特别是在稀疏的几何约束下。未来工作将着重于结合稀疏到稠密的监督信号(例如基于激光雷达的深度先验和语义一致性约束),以进一步提高新视图生成的质量。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论