2024-08-28 突破感知极限！Open3DWorld：自动驾驶中的开放3D World

开放词汇感知的能力代表了自动驾驶系统的重大进步，促进了实时整合和解释各种文本输入。尽管对2D计算机视觉中的开放词汇任务进行了广泛的研究，但将这种方法应用于3D环境，特别是在大规模室外环境中，仍然相对不发达。本文提出了一种将激光雷达传感器获取的3D点云数据与文本信息相结合的新方法。主要重点是利用文本数据在自动驾驶环境中直接定位和识别目标。我们引入了一种将鸟瞰图（BEV）区域特征与文本特征融合的有效框架，从而使系统能够无缝适应新的文本输入，并增强开放词汇检测任务的鲁棒性。通过在新引入的NuScenes-T数据集上进行广泛实验，对所提出方法的有效性进行了严格评估，并在Lyft Level 5数据集上对其zero-shot性能进行了额外验证。这项研究通过利用多模态数据来增强3D环境中的开放词汇感知，从而突破了自主导航和感知的界限，为自动驾驶技术的进步做出了重大贡献。

本文介绍了一种新方法，该方法将激光雷达传感器的3D点云与文本数据相结合，以增强自动驾驶的感知能力。通过直接使用文本来定位和识别目标，具体来说提出了一种简单而有效的方法，将鸟瞰图（BEV）区域特征与文本特征融合在一起。本文的方法支持无缝适应新的文本输入，促进了3D环境中强大的开放词汇检测任务。方法命为“Open3DWorld”。本文的贡献有三方面：

支持使用激光雷达文本的3D开放词汇检测任务，使自动驾驶系统能够无缝适应新的文本输入，而无需进行大量的再培训。这种能力对于在多样化和动态的环境中运行至关重要。
提出了一种将3D点云与文本数据集成的新方法，增强了自动驾驶系统的感知能力。通过有效地将鸟瞰图（BEV）区域特征与文本特征融合，我们的方法能够直接从文本输入中准确定位和识别目标。
通过对NuScenes数据集（（称为NuScenes-T数据集）的扩展词汇表进行综合实验，证明了我们的方法的有效性，并在Lyft 5级数据集上验证了其zero-shot性能。

相关工作回顾

Open vocabulary：开放式词汇感知是自动驾驶系统的一项基本能力，能够识别和解释训练数据中可能不存在的各种文本输入。YoloWorld和GroundingDINO等方法促进了这一领域的最新进展。YoloWorld是YOLO框架的高级扩展，专门用于通过集成来自大规模语言模型的上下文信息来处理开放词汇任务。接地DINO将文本描述的接地与视觉感知模型相结合，实现了文本和图像数据的精确对齐。

为了训练和验证开放词汇感知的模型，已经使用了几个大规模和各种各样的数据集，包括COCO（上下文中的常见目标）、Objects365（O365）、Golden Gate数据集（GoldG）和300万个概念字幕（CC3M）。这些数据集提供了各种各样的目标类别和注释，促进了2D开放词汇任务的全面训练。对于3D开放词汇任务，3D-OWIS提出了一种新的开放世界3D室内实例分割方法，该方法通过自动标注和生成伪标签，并调整未知类别概率来区分和逐步学习未知类别。OV-3DET提出了一种无需任何3D标注即可完成开放词汇表点云目标检测的方法。在室外场景中，POP-3D通过使用预训练的多模态模型来预测3D Occ。

自动驾驶体素网络中的3D目标检测是第一个为基于激光雷达的3D目标探测引入密集卷积的技术，实现了具有竞争力的性能。PointPillars、PillarNet和PillarNext在这些特征图上使用了BEV的2D密集卷积。SECOND是一项开创性的工作，它使用稀疏CNN提取3D稀疏体素特征，然后将其转换为密集的BEV特征图进行预测。CenterPoint引入了一种基于center的检测头。FSDv1将原始点云划分为前景和背景，然后对前景点进行聚类以表示单个目标。它使用PointNet风格的网络从每个聚类中提取特征，以进行初始粗略预测，并由组校正头进行细化。FSDv2用虚拟体素化模块取代了实例聚类，旨在消除人工设计的实例级表示的归纳偏差。SWFormer提出了一种完全基于transformer的3D目标检测架构。最近，VoxelNeXt通过纯粹基于体素的设计简化了完全稀疏的架构，根据最接近其中心的特征定位目标。

多模态融合对于文本和图像特征对齐，CLIP是无监督跨模态训练的开创性工作。因此，MaskCLIP改进了用于像素级密集预测任务的CLIP，特别是语义分割。用于开放词汇检测的多模态特征融合方法包括YoloWorld，该方法提出了一种视觉语言PAN来融合词汇嵌入和多尺度图像特征。GroundingDINO引入了一个特征增强器和一个语言引导的查询选择模块，采用了类似于Transformer的架构。对于图像和点云特征对齐，BEVFusion首先将图像和点云和数据转换为鸟瞰图（BEV）空间，然后将它们融合。对于室内场景中的文本、图像和点云对齐，OV-3DET提出了Debian跨模式三元组对比度损失。POP-3D通过使用预训练的MaskCLIP模型并采用图像特征作为媒介来建立三种模态之间的联系，从而解决了室外场景的问题。

问题定义

方法论

NuScenes-T Dataset

TOD3Cap基于原始标注详细描述了NuScenes数据集中的每个目标。我们使用它来提取描述中的名词主题，经过过滤后，我们得到NuScenes中目标的名词描述，例如“汽车”、“盒子”、“垃圾”。所有名词的分布如图2所示。

通过这种方法，我们获得了比原始NuScenes数据集中更多的类别注释。自动驾驶场景中的一些常见挑战性案例，如“石头”和“盒子”，也包括在我们的新类别中。

Framework Overview

本文提出的方法的总体框架如图3所示，主要由三个部分组成。第一个是特征提取主干，它包括文本和点云特征提取器。第二个组件是鸟瞰图（BEV）特征和文本特征融合模块，它提取文本感知的BEV特征并获得更新的文本特征。最后，最后一个组件是多模态头，它由对比头和定位头组成。总之，我们的方法输出与文本输入相关的目标3D信息，包括目标的空间位置、大小、标题和其他细节。

Feature Extraction

BEV-Region Text Fusion Module

在融合多模态特征时，融合模块非常重要。在我们的Open3DWorld中，将其命名为BEV区域文本融合模块，因为它建立了每个BEV网格和每个文本之间的关系，并更新两者以对齐它们的特征空间。我们进行了广泛的实验来探索最适合我们任务的融合模块，并最终设计了图4所示的融合模块。

首先将鸟瞰图（BEV）特征展平，以获得展平的特征和文本特征。为了初步融合多模态特征，我们使用Max Sigmoid Attention Module通过使用文本特征来更新BEV区域特征，其格式为：

接下来，我们将更全面地融合BEV和文本特征。首先分别对BEV特征和文本特征进行self-att。考虑到大的BEV网格带来的计算负担，使用可变形的自关注来减少计算负担。接下来首先使用交叉注意力将文本特征聚合到鸟瞰图（BEV）特征中，然后使用交叉注意将BEV特征聚合到文本特征中。最后，我们使用FFN来调整特征维度。与Transformer中的编码器块一样，此融合过程执行N次。我们通过实验实现了N等于3，以实现效果和计算负担之间的平衡。

Contrastive Head and Localization Head

对于定位头，我们与传统的3D检测任务保持一致，并对所有信息进行回归，包括目标的空间位置、大小、航向和其他信息。我们的优势在于，基于与文本特征集成的边界元法特征来预测信息，因此更容易预测某个类别的属性。

Training and Evaluation

在获得BEV网格和文本之间的相似性图后，我们分两步获得GT热图。首先，我们将3D GT框投影到BEV特征图上，从而产生旋转框。例如，我们将一个3D盒子投影到BEV featmap中：

其次使用类似于YoloWorld的样本分配方法来获得H。最后使用交叉熵损失来监督训练，其格式为：

在评估过程中，在生成BEV网格和文本输入之间的相似性图（表示为S）后，我们应用预定义的分数阈值。如果BEV网格和相应文本之间的相似性得分超过此阈值，则网格被视为文本描述的目标的中心。然后通过提取相应网格的3D信息来识别和定位目标。最后，我们应用非最大抑制（NMS）来过滤和细化检测。

实验

实验和分析

通过外部描述信息扩展词汇表，我们在NuScenes-T数据集上训练Open3DWorld，使其能够完成与之前的3D检测模型类似的检测任务。由于我们的词汇表包括检测任务的封闭集合中的类别，因此我们可以计算出类似于标准3D检测任务中的定量指标。

我们的检测精度可与专业的3D检测模型相媲美，无需采用额外的训练技术来提高性能。这是有意的，因为我们的主要目标是开发一个能够无缝集成新文本信息的通用开放词汇模型。Nussenes-T数据集的测试结果如表1所示。

Zero-Shot Performance：为了评估零样本性能，在Lyft Level 5数据集上运行了Open3DWorld。结果2表明，融合模型利用BEV特征和文本特征，可以在理论上对齐以实现分类。众所周知，在点云目标检测领域，当我们使用在一个数据集上训练的模型在另一个数据集中进行测试时，模型会崩溃。我们的方法不需要训练，可以在Lyft Level 5数据集上获得初步结果，这表明在文本特征和BEV特征对齐后，泛化能力远优于传统的检测模型。

讨论

从实验中获得的结论强调了所提出的融合模型的优缺点。3D点云和文本数据的集成显著提高了检测精度；然而，目前开放词汇类别的收集在数量和质量上仍然有限。与基于图像的开放词汇检测领域现有的数万个类别相比，我们的数据集需要进一步扩展。此外不同类别的比例不平衡，这对模型的性能产生了负面影响，特别是在长尾类别上。

为了应对这些挑战，未来的工作将侧重于自动收集开放词汇表数据注释或采用无监督的方法来训练模型，使其能够在现实世界场景中管理更广泛的类别。此外，未来的研究将探索其他数据模式的集成，并开发更先进的融合技术，以进一步增强自动驾驶环境中的目标检测能力。

结论

本文介绍了一种在自动驾驶中进行3D开放词汇检测的新方法，该方法利用了激光雷达和文本数据的融合。我们的方法使智能驾驶汽车能够适应新的文本输入，而不需要进行广泛的再训练，从而增强了它们在多样化和动态环境中运行的能力。通过将3D点云与文本数据集成，我们的方法直接从文本查询中改进了目标定位和识别。我们的框架的有效性已经通过在NuScenes-T数据集上的广泛实验得到了证明，并在Lyft Level 5数据集上得到了验证，展示了它在现实世界场景中的鲁棒性和多功能性。通过推进多模态数据的集成，这项工作有助于开发更安全、更可靠、更高效的自动驾驶系统，为未来更具适应性和智能的感知模型铺平了道路。

参考

[1] Open 3D World in Autonomous Driving

2024-08-28 突破感知极限！Open3DWorld：自动驾驶中的开放3D World

发表回复取消回复

Categories

Archives

2024-08-28 突破感知极限！Open3DWorld：自动驾驶中的开放3D World

发表回复 取消回复

Categories

Archives

发表回复取消回复