2024-05-13 【MIT和丰田研究所】探索多模态LLMs作为自动驾驶的世界模型

论文链接:https://arxiv.org/pdf/2405.05956

项目主页:https://github.com/features/actions

摘要

本文介绍了探索多模态LLMs作为自动驾驶的世界模型。本文概述了多模态大型语言模型(MLLMs)在自动驾驶领域中的应用,并且挑战/验证了一些常见的假设,着重于在闭环受控环境中通过图像/帧的序列来推理和解释动态驾驶场景的能力。尽管GPT-4V等MLLMs取得了巨大进展,但是它们在复杂、动态驾驶环境中的性能在很大程度上仍未经过测试,并且呈现出广阔的探索领域。本文进行全面的实验研究来评估各种MLLMs作为自动驾驶世界模型的能力。本文研究结果表明,尽管这些模型能够熟练解释单张图像,但是它们难以合成帧间连贯的叙述或者逻辑序列来描述动态行为。本项实验表明,在预测基本的车辆动态行为(前进/后退、加速/减速、右转/左转)、与其它道路参与者的交互(例如识别超速行驶的汽车或者拥堵交通)、轨迹规划和开集动态场景推理方面存在相当大的不准确性,这表明模型的训练数据存在偏差。为了进行这项实验研究,本文引入了一种专门的仿真器DriveSim,旨在生成各种驾驶场景,为评估驾驶领域中的MLLMs提供了一个平台。此外,本文还提供了完整的开源代码和一个新的数据集“Eval-LLM-Drive”,用于评估自动驾驶中的MLLMs。研究结果突出了最先进的MLLMs当前能力的关键差距,强调了增强基础模型的必要性,以提高其在现实世界动态环境中的适用性。

主要贡献

本文的主要贡献总结如下:

1)本文进行全面的实验研究,旨在评估不同的MLLMs推理/理解场景的能力,这些场景涉及闭环驾驶和决策。该测试涵盖了环境交互的多个方面,包括自车驾驶动态行为、其它道路参与者的动态交互、轨迹规划和开集驾驶场景推理;

2)DriveSim:一种专门的仿真器,旨在生成一系列不同的驾驶场景,从而提供了一个平台,其测试和评估/基准测试MLLMs在理解和推理现实世界驾驶场景的能力;

3)本文研究表明,包括GPT-4V和Claude3在内的领先MLLMs在动态场景中难以解释、推理和采取正确行为,即闭环驾驶环境中的帧序列具有明显的不准确性。在各种最先进(SOTA)模型中观察到的这个问题可能源于训练数据中的偏差;

4)本文提供了DriveSim的开源代码以及用于评估MLLMs作为驾驶世界模型的新数据集“Eval-LLM-Drive”。

论文图片和表格

总结

本项工作展现了SOTA MLLMs(包括GPT-4V和Claude3)作为驾驶世界模型的当前能力。尽管它们在单帧图像分析中具有优势,但是通过大量实验结果表明,其在多帧驾驶场景中推理方面的局限性是显而易见的。本文观察到,无法处理各种场景显然是由于预期的车辆运动存在偏差导致的,例如在道路上行驶时的前进运动。尽管很多准确性级别看似随机,但是DriveSim允许探索预测背后的推理能力,揭示偏差细节。尽管在理解现实世界的动态行为方面存在局限性,但是明确的途径表明了如何改进它们。今后的工作可以利用DriveSim为微调MLLMs提供数据,并且结合路径规划等高级仿真功能,以增强对下一代MLLMs的评估。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论