

文章链接:https://arxiv.org/pdf/2407.06109
项目链接:https://perldiff.github.io/
主要贡献:
- 提出了新框架 PerlDiff,用于根据用户定义的3D注释生成街景图像。PerlDiff 利用透视布局掩码作为几何先验,精确引导物体层面的图像生成过程。
- 提出了基于 Perl 的交叉注意机制,该机制利用3D注释中的透视布局掩码图来增强 Perl-CM 中的交叉注意机制。这种方法通过整合道路和 BEV 注释的特定物体信息,实现了对街景图像生成过程的精确控制。
- PerlDiff在NuScenes 和 KITTI 数据集上达到了SOTA,显著提高了将生成街景图像用于目标检测和分割上的实验结果。
可控生成被认为是解决 3D 数据标注挑战的一种的重要方法,而这种可控生成的精确性在自动驾驶的数据中变得尤为重要。现有方法侧重于利用 GLIGEN 或 ControlNet 等框架,将各种生成信息整合到控制输入中。虽然在可控生成方面取得了不错的成果,然而,这些方法本质上将生成性能限制在预定义网络架构的学习能力范围内。PerlDiff 充分利用透视 3D 几何信息进行有效街景图像生成,采用 3D 几何先验来指导街景图像的生成,并在网络学习过程中进行精确的物体层面控制,从而获得更准确、更可控的输出结果。

方法设计
训练数据:
- NuScenes 数据集包括 1,000 个城市交通场景,分为 700 个训练场景和 150 个验证场景。每个场景有六幅高分辨率图像(900×1600),提供了一个完整的 360 度全景视图。NuScenes 还包括驾驶环境的综合路图,其中包括车道标记和障碍物等细节。
- KITTI 数据集包含 3,712 幅训练图像和 3,769 幅验证图像。KITTI 数据集只有一张透视图像,没有路图信息。鉴于 KITTI 数据集的图像分辨率不同(约 375×1242),将其填充为 384×1280 以进行生成。
控制条件编码
根据交通场景的 BEV 注释,目标是生成多视角街景图像。不仅要提取场景信息,而且还要提取物体信息作为控制条件。

基于 Perl控制模块(Perl-CM)实现物体可控性

Perl-CM 负责将控制条件信息(包括 Perl 场景和物体信息)通过基于 Perl 的场景和物体交叉注意机制整合到潜在特征图中。首先该机制会为注意力图分配初始值, 然后在道路和边界框 Perl 掩码图的引导下,在整个网络训练过程中对这些值进行优化,以确保注意图的响应与物体所在区域准确对应;
为了确保多视图一致性,视图交叉注意力利用了紧邻的左视图和右视图的信息,以实现不同视角的一致性;

文本交叉注意力利用文本场景描述来处理街道场景的天气和照明条件;


讨论:
与 BEVControl、MagicDrive、DrivingDiffusion 和 Panacea 等采用普通交叉注意机制来整合控制条件信息的方法不同。PerlDiff 通过 Perl 掩码图引入了几何先验,在训练阶段利用物体对应的控制信息来指导其生成,从而有效解决注意力图和条件信息之间常见的错位问题(导致图像可控性受损),显著提高了生成图像的准确性。

实验结果:
NuScenes数据集:PerlDiff 在多个指标上均优于 BEVControl 和 MagicDrive 等现有方法,特别是在 3D 目标检测指标图平均精度(mAP)和 NuScenes 检测指标(NDS);

KITTI数据集:PerlDiff 在小样本数据集上仍然有很好的泛化性,相比于采用普通交叉注意力的BEVControl*,PerlDiff 在单目目标检测器MonoFlex上的指标是其十几倍。同时,实验说明利用在 NuScenes 上训练过后在 KITTI 上微调能达到更好的效果;

数据增强:PerlDiff利用合成数据集来提高各种检测模型在 NuScenes 测试集上的性能。其中,使用 NuScenes 训练集和验证集(第二行)的指标作为上限,来验证共同使用 NuScenes 真实训练集和 PerlDiff 生成验证集后,与其差距大小;

基于 Perl 的交叉注意力机制的效果:通过将其换成普通的交叉注意力机制,3D目标检测(BEVFormer)和BEV分割(CVT)指标大幅度变差,来说明其有效性;

Perl(路面/物体边界框)掩码图控制系数:不同掩码图权重系数代表几何先验知识融入网络学习的程度;

可视化结果比较:给出了相比于 BEVControl*,PerlDIff 在控制物体角度、位置、大小方面的有效性;


其他可视化结果:


主要结论:
PerlDiff 通过整合几何约束和扩散模型,在生成高保真度视觉图像的同时,提供了精确的控制信息,增强了图像生成的可控性。实验证明,PerlDiff在 NuScenes 和 KITTI 数据集上表现出色,有望在未来成为一个强大的交通模拟器。未来工作将探索视频生成,以进一步提升模型的应用潜力。

发表回复