
论文链接:https://arxiv.org/pdf/2312.14115.pdf
代码链接:https://github.com/wayveai/LingoQA
摘要
本文介绍了LingoQA:自动驾驶中的视频问答。由于决策过程中缺乏可解释性,自动驾驶长期以来一直面临着公众接受的挑战。自然语言中的视频问答(QA)提供了弥补这一差距的机会。尽管如此,由于缺乏全面的基准,评估视频QA模型的性能已被证明是特别困难的。为了填补这一差距,我们引入了LingoQA,这是一个专门用于自动驾驶视频QA的基准。LingoQA可训练指标显示了0.95的斯皮尔曼相关系数。本文引入了一个伦敦市中心的视频QA数据集,该数据集由419k个样本组成。本文建立了一个基线视觉语言模型,并且进行大量消融研究以理解其性能。
主要贡献
本文的主要贡献总结如下:
1)LingoQA基准:本文引入了一种新的自动驾驶视频QA基准,其通过学习的本文分类器进行评估。它优于包括GPT-4在内的现有指标,斯皮尔曼系数为0.950,这表明与人类评估有很强的相关性;
2)LingoQA数据集:本文的419.9k个QA配对数据集以其自由形式的问答脱颖而出,不仅涵盖了感知,还直接涵盖了驾驶员的驾驶推理,从而拓宽了自动驾驶视频QA的范围;
3)LingoQA基线:通过在LingoQA上测试各种视频语言组件,我们发现最有效的方法包括部分微调本文视觉-语言模型的注意力层,该模型配备了Vicuna-1.5-7B和后期视频融合技术。我们通过已确定的模型组合为该领域建立一个新的基线。
论文图片和表格







总结
在本文中,我们引入了一种新型的自动驾驶视频问答基准。该基准包括一个评估数据集、一个与人类评估高度相关的基于学习分类器的度量Lingo-Judge、一个用于自动驾驶的全面高质量训练数据集。采用Lingo-Judge的快速反馈有助于在视频QA领域进行有效探索。此外,本文对不同模型组合的综合实验可以为进一步提高端到端自动驾驶系统中的可解释性奠定基础。LingoQA基准被公开发布,以促进进一步的社区研究,为人工评分提供可靠且高度相关的评估方法。

发表回复