2024-07-17 PerlDiff：使用扩散模型进行可控的自动驾驶场景数据生成

文章链接：https://arxiv.org/pdf/2407.06109

项目链接：https://perldiff.github.io/

主要贡献：

提出了新框架 PerlDiff，用于根据用户定义的3D注释生成街景图像。PerlDiff 利用透视布局掩码作为几何先验，精确引导物体层面的图像生成过程。
提出了基于 Perl 的交叉注意机制，该机制利用3D注释中的透视布局掩码图来增强 Perl-CM 中的交叉注意机制。这种方法通过整合道路和 BEV 注释的特定物体信息，实现了对街景图像生成过程的精确控制。
PerlDiff在NuScenes 和 KITTI 数据集上达到了SOTA，显著提高了将生成街景图像用于目标检测和分割上的实验结果。

可控生成被认为是解决 3D 数据标注挑战的一种的重要方法，而这种可控生成的精确性在自动驾驶的数据中变得尤为重要。现有方法侧重于利用 GLIGEN 或 ControlNet 等框架，将各种生成信息整合到控制输入中。虽然在可控生成方面取得了不错的成果，然而，这些方法本质上将生成性能限制在预定义网络架构的学习能力范围内。PerlDiff 充分利用透视 3D 几何信息进行有效街景图像生成，采用 3D 几何先验来指导街景图像的生成，并在网络学习过程中进行精确的物体层面控制，从而获得更准确、更可控的输出结果。

方法设计

训练数据：

NuScenes 数据集包括 1,000 个城市交通场景，分为 700 个训练场景和 150 个验证场景。每个场景有六幅高分辨率图像（900×1600），提供了一个完整的 360 度全景视图。NuScenes 还包括驾驶环境的综合路图，其中包括车道标记和障碍物等细节。
KITTI 数据集包含 3,712 幅训练图像和 3,769 幅验证图像。KITTI 数据集只有一张透视图像，没有路图信息。鉴于 KITTI 数据集的图像分辨率不同（约 375×1242），将其填充为 384×1280 以进行生成。

控制条件编码

根据交通场景的 BEV 注释，目标是生成多视角街景图像。不仅要提取场景信息，而且还要提取物体信息作为控制条件。

基于 Perl控制模块（Perl-CM）实现物体可控性

Perl-CM 负责将控制条件信息（包括 Perl 场景和物体信息）通过基于 Perl 的场景和物体交叉注意机制整合到潜在特征图中。首先该机制会为注意力图分配初始值, 然后在道路和边界框 Perl 掩码图的引导下，在整个网络训练过程中对这些值进行优化，以确保注意图的响应与物体所在区域准确对应；

为了确保多视图一致性，视图交叉注意力利用了紧邻的左视图和右视图的信息，以实现不同视角的一致性；

文本交叉注意力利用文本场景描述来处理街道场景的天气和照明条件；

讨论：

与 BEVControl、MagicDrive、DrivingDiffusion 和 Panacea 等采用普通交叉注意机制来整合控制条件信息的方法不同。PerlDiff 通过 Perl 掩码图引入了几何先验，在训练阶段利用物体对应的控制信息来指导其生成，从而有效解决注意力图和条件信息之间常见的错位问题（导致图像可控性受损），显著提高了生成图像的准确性。