2024-01-10 BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法

论文链接:https://arxiv.org/pdf/2401.01065.pdf

摘要

本文介绍了BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法。自动驾驶中对复杂场景数据的检索需求正在逐渐增加,尤其是随着乘用车已经具备了在城市环境中导航的能力,必须解决长尾场景问题。同时,在已有的两维图像检索方法下,场景检索可能会带来一些问题,例如缺乏全局特征表示和较差的文本检索能力。为了解决这些问题,我们提出了BEV-CLIP,这是首个多模态鸟瞰图(BEV)检索方法,其利用描述性文本作为输入来检索相应的场景。该方法使用大型语言模型(LLM)的语义特征提取能力来促进zero-shot检索大量文本描述,并且结合知识图中的半结构化信息,以提高语言嵌入的语义丰富性和多样性。本文实验结果表明,在NuScenes数据集上,文本到BEV特征检索的准确率为87.66%。本文中的示例证明,本文的检索方法在识别某些长尾场景方面也是有效的。

主要贡献

本文的贡献总结如下:

1)本文提出了一种基于BEV特征的检索方法,其能够在自动驾驶场景中检索全局特征,并且展现出显著的理解复杂场景的能力。据我们所知,这是自动驾驶领域中首个BEV检索方法;

2)本文提出了一种由LLM和知识图支持的多模态检索方法,以实现自动驾驶领域中文本描述和BEV特征检索之间的对比学习,从而实现使用长文本描述的zero-shot检索性能;

3)本文基于现有数据集建立了索引验证流程,并且在NuScenes数据集上取得了87.66%的检索准确率,这充分验证了优化BEV检索模型的有效性。

论文图片和表格

总结

在本文中,我们首次提出了一种基于BEV特征和文本特征实现跨模态检索的方法。具体而言,在BEV分支上,我们提出现有BEV模型可以用于获取BEV特征,而无需进行微调。在文本分支上,我们提出使用预训练的仅解码器的LLM作为本文编码器,并且连接自动驾驶领域中知识图训练生成的嵌入,以形成更鲁棒的文本特征。此外,我们还提出了SCP来融合和对齐两个模态信息,并且加入标题头以实现多任务训练。我们通过在NuScenes数据集上进行大量消融研究,定量验证了该方法的有效性,对可视化结果的分析表明,BEV检索任务可以处理自动驾驶中无法依赖单帧和单视图图像解决的复杂场景。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论