
论文链接:https://arxiv.org/pdf/2408.09251
摘要
本文介绍了V2X-VLM:基于大型视觉语言模型的端到端V2X协同自动驾驶。自动驾驶的进展越来越着重于端到端(E2E)系统,其管理从环境感知到车辆导航和控制的全方位任务。本文引入了V2X-VLM,这是一种创新的E2E车辆-基础设施协同自动驾驶(VICAD)框架,其使用大型视觉语言模型(VLMs)。V2X-VLM旨在通过融合来自车载相机、基础设施传感器和文本信息的数据,以增强情景感知、决策和最终轨迹规划。VLM的全面多模态数据融合的优势使其能够在复杂且动态的驾驶场景中实现精确且安全的E2E轨迹规划。在DAIR-V2X数据集上的验证表明,V2X-VLM在协同自动驾驶方面优于现有的最先进方法。
主要贡献
本文的主要贡献为如下三方面:
1)本文提出了一种由E2E VICAD框架支持的大型视觉语言模型,其增强了复杂交通场景中的V2X协同和导航;
2)本文引入了一种统一的范式,将车辆和基础设施的复杂视觉场景配对并且嵌入指示性文本信息,以实现有效的V2X-VLM多模态和多源数据融合与处理;
3)本文在DAIR-V2X数据集上评估所提出的框架,展现了相比于当前最先进的协同自动驾驶方法具有明显改进,这验证了该方法在现实世界场景中的有效性。
论文图片和表格






总结
本项研究提出了V2X-VLM,这是一种通过利用大型VLMs的能力来推进VICAD领域的新框架。V2X-VLM擅长集成和处理多模态数据,包括来自车辆和基础设施的视觉和文本信息。这种全面的数据融合有助于详细理解复杂驾驶环境,并且实现精确且高效的轨迹规划。
下一步将首先着重于使模型的输出多样化,以满足更广泛的驾驶场景,这扩展了框架处理各种环境条件、交通模式和意外事件的能力,从而提高了适应性和鲁棒性。随后,将努力优化V2X-VLM框架内的数据传输效率。这可以通过提取和传输关键特征而不是全分辨率图像来实现,从而降低了数据负载和相关的传输成本。这种优化对于维持高性能水平是至关重要的,同时最大限度地减少资源使用,使系统更具可扩展性和成本效益。最后,未来研究将涉及在包含更广泛场景的多样化数据集上训练和评估V2X-VLM框架,这有助于解决长尾问题,并且提高系统对现实世界挑战的泛化和有效响应能力。

发表回复