2024-05-13 【MIT和丰田研究所】探索多模态LLMs作为自动驾驶的世界模型

2024-05-13

–

admin

–

论文链接：https://arxiv.org/pdf/2405.05956

项目主页：https://github.com/features/actions

摘要

本文介绍了探索多模态LLMs作为自动驾驶的世界模型。本文概述了多模态大型语言模型（MLLMs）在自动驾驶领域中的应用，并且挑战/验证了一些常见的假设，着重于在闭环受控环境中通过图像/帧的序列来推理和解释动态驾驶场景的能力。尽管GPT-4V等MLLMs取得了巨大进展，但是它们在复杂、动态驾驶环境中的性能在很大程度上仍未经过测试，并且呈现出广阔的探索领域。本文进行全面的实验研究来评估各种MLLMs作为自动驾驶世界模型的能力。本文研究结果表明，尽管这些模型能够熟练解释单张图像，但是它们难以合成帧间连贯的叙述或者逻辑序列来描述动态行为。本项实验表明，在预测基本的车辆动态行为（前进/后退、加速/减速、右转/左转）、与其它道路参与者的交互（例如识别超速行驶的汽车或者拥堵交通）、轨迹规划和开集动态场景推理方面存在相当大的不准确性，这表明模型的训练数据存在偏差。为了进行这项实验研究，本文引入了一种专门的仿真器DriveSim，旨在生成各种驾驶场景，为评估驾驶领域中的MLLMs提供了一个平台。此外，本文还提供了完整的开源代码和一个新的数据集“Eval-LLM-Drive”，用于评估自动驾驶中的MLLMs。研究结果突出了最先进的MLLMs当前能力的关键差距，强调了增强基础模型的必要性，以提高其在现实世界动态环境中的适用性。

主要贡献

本文的主要贡献总结如下：

1）本文进行全面的实验研究，旨在评估不同的MLLMs推理/理解场景的能力，这些场景涉及闭环驾驶和决策。该测试涵盖了环境交互的多个方面，包括自车驾驶动态行为、其它道路参与者的动态交互、轨迹规划和开集驾驶场景推理；

2）DriveSim：一种专门的仿真器，旨在生成一系列不同的驾驶场景，从而提供了一个平台，其测试和评估/基准测试MLLMs在理解和推理现实世界驾驶场景的能力；

3）本文研究表明，包括GPT-4V和Claude3在内的领先MLLMs在动态场景中难以解释、推理和采取正确行为，即闭环驾驶环境中的帧序列具有明显的不准确性。在各种最先进（SOTA）模型中观察到的这个问题可能源于训练数据中的偏差；

4）本文提供了DriveSim的开源代码以及用于评估MLLMs作为驾驶世界模型的新数据集“Eval-LLM-Drive”。

论文图片和表格

总结

本项工作展现了SOTA MLLMs（包括GPT-4V和Claude3）作为驾驶世界模型的当前能力。尽管它们在单帧图像分析中具有优势，但是通过大量实验结果表明，其在多帧驾驶场景中推理方面的局限性是显而易见的。本文观察到，无法处理各种场景显然是由于预期的车辆运动存在偏差导致的，例如在道路上行驶时的前进运动。尽管很多准确性级别看似随机，但是DriveSim允许探索预测背后的推理能力，揭示偏差细节。尽管在理解现实世界的动态行为方面存在局限性，但是明确的途径表明了如何改进它们。今后的工作可以利用DriveSim为微调MLLMs提供数据，并且结合路径规划等高级仿真功能，以增强对下一代MLLMs的评估。

发表回复取消回复

往期评论

2024-05-13 【MIT和丰田研究所】探索多模态LLMs作为自动驾驶的世界模型

发表回复取消回复

Categories

Archives

2024-05-13 【MIT和丰田研究所】探索多模态LLMs作为自动驾驶的世界模型

发表回复 取消回复

Categories

Archives

发表回复取消回复