2025-11-20 理想一篇中稿AAAI’26的LiDAR生成工作 – DriveLiDAR4D

原文链接：https://mp.weixin.qq.com/s/I5vQWrA4GbC_m_Ie-x76BQ

激光雷达（LiDAR）点云的真实生成在自动驾驶系统的开发与评估中起着关键作用。尽管近年来3D激光雷达点云生成方法已取得显著进步，但仍存在明显局限性，包括缺乏时序生成能力、无法生成定位精准的前景物体及逼真背景。这些缺陷阻碍了它们的实际应用。

理想汽车提出了DriveLiDAR4D，一种全新的激光雷达生成流水线，整合了多模态条件与创新的时序噪声预测模型LiDAR4DNet，能够生成时序一致的激光雷达场景，且具备高度可控的前景物体与逼真背景。理想汽车提出了DriveLiDAR4D已中稿AAAI 2026！

据我们所知，这是首个以端到端方式实现激光雷达场景时序生成并具备全场景操控能力的研究。我们在nuScenes和KITTI数据集上对DriveLiDAR4D进行了评估，在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数，超越了当前最先进方法UniScene，FRD性能提升37.2%，FVD性能提升24.1%。

论文标题：DriveLiDAR4D: Sequential and Controllable LiDAR Scene Generation for Autonomous Driving
论文链接：https://arxiv.org/abs/2511.13309

背景回顾

数据是推动人工智能发展的基础要素。在自动驾驶研究领域，高质量数据尤为关键，原因如下：i）深度学习模型固有的数据密集型需求；ii）必须捕捉边缘场景——罕见的驾驶行为和特殊的道路环境，这些对于开发安全关键型系统至关重要。然而，收集和标注多样化的多模态数据集（如相机和激光雷达数据）仍然耗时且资源密集。尽管近年来生成模型在视觉数据合成方面展现出良好潜力，但激光雷达场景生成——尽管其在提供几何感知方面不可或缺——仍相对滞后。本研究旨在改进现有的激光雷达场景生成技术，以更好地满足实际自动驾驶需求。

为合成能够准确捕捉真实世界多样交通场景的逼真激光雷达数据，激光雷达场景生成方法应支持道路布局和动态物体放置的灵活定制。近期研究（如LiDARGen、UltraLiDAR、R2DM以及RangeLDM）在生成逼真激光雷达数据方面取得了显著进展。然而，这些技术主要以无条件生成方式为主，缺乏操控特定场景元素的能力。

激光雷达点云背景的质量与前景物体的质量同等重要，均需保证逼真度。为此，Text2LiDAR采用文本描述作为条件输入。尽管如此，该方法仅限于包含天气状况、时段和物体名称的粗略描述。由于缺少树木或建筑物等具体背景信息的描述，生成的激光雷达数据逼真度受到影响。

此外，当前3D激光雷达场景生成方法在捕捉物体动态行为方面存在不足。为缓解这一问题，LidarDM提出通过分别建模静态场景和动态物体来生成激光雷达序列。但该方法缺乏背景操控能力，其两阶段合成策略可能会影响点云分布的逼真度和连贯性。

综上所述，当前激光雷达场景生成方法在整合所有关键能力方面存在明显不足：时序场景生成，同时具备对前景和背景组件的精细化操控能力。为填补这一空白，我们提出DriveLiDAR4D，一种端到端的4D激光雷达场景生成流水线，能够生成具备全面场景操控能力的时序激光雷达场景。DriveLiDAR4D具有两大核心特征：i）融合多模态条件，包括场景描述、道路草图和物体先验；ii）精心设计的等矩形时空噪声预测模型LiDAR4DNet，确保去噪过程中的空间和时序一致性。

图1展示了不同方法在nuScenes验证集上生成的激光雷达场景。可见，RangeLDM和Text2LiDAR无法准确生成车辆，且背景与真实场景（GT）不一致。相比之下，DriveLiDAR4D生成的车辆位置、结构以及背景均与真实场景高度吻合。此外，值得注意的是，DriveLiDAR4D能够生成保持时序一致性的激光雷达场景序列，而RangeLDM和Text2LiDAR仅能生成孤立的单个激光雷达场景。

综上，本文的具体贡献如下：

首次实现激光雷达场景生成中对前景物体的精准操控（包括位置和尺寸调整）以及对背景元素的精细化操控。
提出新颖的等矩形时空扩散模型LiDAR4DNet，以端到端方式实现时序激光雷达场景生成，同时保证前景和背景元素的一致性。
在KITTI和nuScenes数据集上验证了所提DriveLiDAR4D的有效性，其性能超越了当前最先进方法。

DriveLiDAR4D算法详解

图3展示了DriveLiDAR4D的流水线：训练阶段，我们首先提取三种多模态条件（道路草图、场景描述和物体先验）；随后，LiDAR4DNet以带噪声的等矩形图像序列作为输入，并以这三种多模态条件为约束，预测添加的噪声。推理阶段，LiDAR4DNet同样利用这三种多模态条件，重建等矩形图像序列。

预备知识

多模态条件

道路草图：道路草图包含道路布局和物体专属信息。首先，通过路缘和车道线勾勒道路布局，这种表示方式可实现道路空间结构的像素级精准控制；其次，物体专属信息以3D边界框形式呈现，该边界框包含每个物体的尺寸、位置和朝向信息。

为将这两部分整合为统一表示，我们将道路布局和3D边界框均投影到激光雷达传感器的等矩形图像平面（下文将详细介绍）上，得到与输入等矩形图像尺寸一致的道路草图。图2展示了nuScenes数据集中路途草图条件的示例。

场景描述：除通过道路草图实现前景控制外，我们还提出使用场景描述对背景进行全面描述。然而，现有激光雷达数据集缺乏高质量场景描述：KITTI-360数据集未包含任何场景描述，nuScenes数据集仅提供关于天气或时段的单句简短描述。因此，我们利用强大的视觉-语言模型GPT-4V生成详细场景描述——具体而言，将周围图像输入GPT-4V，并要求其生成所描绘场景的描述文本。图2展示了nuScenes数据集中场景描述条件的示例，该示例中的场景描述不仅包含前景物体“出租车”，还涵盖“树木”“草地”等背景元素。

物体先验：在自动驾驶场景中，激光雷达对不同元素的测量往往存在不平衡性——例如，一辆车可能由数百个点表示，而地面却可能包含数千个点。扩散模型通常会尝试对整个场景进行逼近，却未解决这种不平衡问题，导致物体生成质量欠佳。为缓解这一问题，我们提出先合成物体的点云，再将其作为条件引导模型生成完整场景。背后的核心思路是：尽管道路草图可指示物体位置，但无法充分引导物体的点分布；而将合成物体点云作为先验，能在去噪过程中提供更强的引导作用。

我们训练了一个物体生成模型DiT-3D，该模型以物体类别、尺寸、相对于激光雷达传感器的极坐标及朝向为条件，这些条件可表示为[类别, 长, 宽, 高, 极坐标, 朝向]。物体先验通过预训练的物体生成模型生成物体点云获得，随后将这些物体点投影到激光雷达传感器的等矩形图像平面上。

LiDAR4DNet模型