
论文链接:https://arxiv.org/pdf/2401.05577.pdf
摘要
本文介绍了VLP:用于自动驾驶的视觉语言规划。自动驾驶是一项复杂且具有挑战性的任务,旨在通过场景理解和推理来实现安全运动规划。尽管纯视觉自动驾驶方法通过增强的场景理解最近取得了不错的性能,但是仍然存在若干个关键问题需要解决,包括缺乏推理、泛化性能低和长尾场景。在本文中,我们提出了VLP,这是一种新型的视觉语言规划框架,它利用语言模型来弥补语言理解和自动驾驶之间的差距。VLP通过增强来源记忆基础和自动驾驶汽车的上下文理解来提升自动驾驶系统。VLP在具有挑战性的NuScenes数据集上实现了最先进的端到端规划性能,与先前最优方法相比,其在平均L2误差和碰撞率方面分别降低了35.9%和60.5%。此外,VLP在具有挑战性的长尾场景中展现出更好的性能,在面对新的城市环境时表现出强大的泛化能力。
主要贡献
本文的主要贡献总结如下:
1)本文提出了VLP,这是一种视觉语言规划模型,它将LLMs的推理能力加入基于视觉的自动驾驶系统中,以增强运动规划和自动驾驶安全性;
2)VLP由新型组件ALP和SLP组成,旨在分别从自动驾驶BEV推理和自动驾驶决策两个方面来改进ADS;
3)通过在现实世界驾驶场景中进行大量实验,结果表明VLP在一系列驾驶任务(包括开环规划、多目标跟踪、运动预测等)中都显著且一直优于最先进的基于视觉的方法;
4)本文通过对不同城市的数据进行训练和测试,在nuScenes数据集上进行首次新城市的泛化研究,证明了本文VLP方法相对于纯视觉方法的显著zero-shot泛化能力;
5)据我们所知,这是首项将LLMs引入ADS的多个阶段的工作,以解决在新城市和长尾情况中的泛化能力问题。
论文图片和表格












总结
本文引入了一种新的视觉语言规划(VLP)方法来增强自动驾驶系统(ADS)的能力。本文方法利用以自动驾驶汽车为中心的学习范式(SLP)和以语言提示为指导的智能体学习范式(ALP)来创建对环境的全面理解。通过对各种驾驶任务的一系列实验,我们证明了本文VLP方法在改进ADS的感知、预测和规划方面的有效性。泛化实验展现了本文VLP方法的鲁棒性,证明了其对新城市和长尾情况的适应性。通过将ADS的能力扩展到训练环境之外,本文VLP方法为在现实世界条件下实现更安全、更可靠的自动驾驶铺平了道路。
局限性:本文实验目前仅限于nuScenes数据集和相机模态作为基于基线视觉的方法。在未来的工作中,我们将在更宽泛的数据集和传感器模态上评估VLP。

发表回复