2025-04-02 慕尼黑工大最新！OpenDriveVLA：基于大型VLA模型的端到端自动驾驶~

原文链接：https://zhuanlan.zhihu.com/p/1890588500153312799

专为端到端自动驾驶设计的VLA模型

OpenDriveVLA是一种专为端到端自动驾驶设计的视觉语言动作（VLA）模型。OpenDriveVLA基于开源预训练的大型视觉语言模型（VLMs），以3D环境感知、自车状态和驾驶员指令为条件，生成可靠的驾驶动作。为了弥合驾驶视觉表征与语言嵌入之间的模态差距，提出了一种分层视觉语言对齐过程，将2D和3D结构化视觉token投影到统一的语义空间中。此外，OpenDriveVLA通过自回归的车辆 – 环境 – 自车交互过程，对自车、周围车辆和静态道路元素之间的动态关系进行建模，确保在空间和行为上都能提供信息的轨迹规划。在nuScenes数据集

上进行的大量实验表明，OpenDriveVLA在开环轨迹规划和与驾驶相关的问答任务中均取得了最先进的成果。定性分析进一步说明了OpenDriveVLA在遵循高级驾驶指令方面的卓越能力，以及在具有挑战性的场景中稳健生成轨迹的能力，突出了其在下一代端到端自动驾驶中的潜力。我们将发布代码，以促进该领域的进一步研究。

原文链接：慕尼黑工大最新！OpenDriveVLA：基于大型VLA模型的端到端自动驾驶~

项目链接：http://drivevla.github.io

背景介绍与领域发展

端到端学习框架已成为自动驾驶领域一种很有前景的范式，它使感知、预测和规划能够在统一的神经网络中进行联合优化。通过利用大规模驾驶数据，这些模型直接从原始传感器输入中学习驾驶策略，在各种驾驶场景中都取得了令人瞩目的性能。尽管取得了显著进展，但现有的端到端驾驶方法仍然面临严峻挑战，特别是在对长尾场景的泛化能力有限、对复杂驾驶场景中高级语义的理解不足，以及任务驱动规划的推理能力不够灵活等方面。

与此同时，大语言模型（LLMs）和视觉语言模型（VLMs）展现出强大的context学习、常识理解和零样本-少样本泛化能力。这些新兴能力凸显了它们在自动驾驶领域的潜力，尤其是考虑到对各种现实世界驾驶条件下稳健场景理解的迫切需求。然而，直接将现有的VLMs应用于自动驾驶面临着根本性的挑战。首先，当前的VLMs主要针对静态2D图像-语言任务进行优化，在动态3D驾驶环境中的空间推理性能较差。此外，这些模型经常产生幻觉输出，即不正确或过于自信的描述，这在自动驾驶中会严重危及安全。

受这些限制的启发，我们的工作旨在回答一个核心问题：如何利用VLMs的新兴能力生成可靠的驾驶动作，同时降低幻觉风险，并平衡推理速度和规划有效性？

OpenDriveVLA是一种专为端到端自动驾驶设计的新型视觉语言动作模型。OpenDriveVLA利用开源预训练的语言基础模型，以多模态输入（包括3D环境感知、自车状态和驾驶员指令）为条件，生成可解释且可靠的驾驶轨迹。OpenDriveVLA在统一模型中弥合了视觉语言理解与轨迹生成之间的差距。它在开环规划和与驾驶相关的问答基准测试中经过严格评估，取得了领先的结果，展示了卓越的轨迹生成和驾驶场景理解能力。贡献总结如下：

OpenDriveVLA是一种端到端的视觉语言动作模型，它以多模态输入为条件生成可靠的驾驶轨迹；
引入了一种分层视觉语言特征对齐模块，将结构化的2D和3D视觉token投影到统一的语义embedding空间中，以促进语言引导的轨迹生成；
设计了一种车辆 – 环境 – 自车交互过程，以捕捉自车、动态车辆和静态地图元素之间的交互，显著提高了复杂交通场景中运动预测的准确性和轨迹的可靠性；
在nuScenes数据集上进行的大量实验表明，OpenDriveVLA在开环规划和与驾驶相关的问答任务中均取得了最先进的成果，始终优于先前基于LLM的方法和端到端自动驾驶方法。

OpenDriveVLA方法

OpenDriveVLA的整体架构如图1所示，其多阶段训练过程在图3中进一步详细说明。OpenDriveVLA从一个预训练的视觉编码器开始，该编码器从多视图图像中提取token化的环境表示。然后，这些视觉token通过跨模态学习对齐到文本域。对齐之后，OpenDriveVLA进行驾驶指令调整，接着进行车辆 – 环境 – 自车交互建模。最后，OpenDriveVLA进行端到端训练，以在对齐的视觉语言token和驾驶指令的指导下预测自车的未来轨迹。

1）3D视觉环境感知

2）分层视觉语言对齐

3）驾驶指令调整

4）车辆 – 环境 – 自车交互

5）端到端轨迹规划

实验分析

1）训练数据

在nuScenes数据集上开展实验，按照标准将数据划分为训练集和验证集。OpenDriveVLA使用训练集以及对应的问答字幕进行训练，而验证集仅用于性能评估，以此确保能与之前的研究进行公平对比。各阶段的训练数据信息如表1所示。

视觉语言对齐：在进行智能体特征对齐时，我们对实例字幕进行了后处理，这些字幕提供了单个物体的2D视觉描述。为进一步增强空间感知能力，每个物体的字幕都增加了相应的鸟瞰图（BEV）坐标，这样模型就能将物体属性与精确的空间位置关联起来。对于场景token，我们对多视图场景描述进行处理，将其合并为统一的摘要，以描述所有摄像头视角下的驾驶环境。对于地图token，结构化语言描述源自真实标注，将车道分隔线、人行横道和道路边界等地图元素转化为描述性文本。

驾驶指令调整：采用了多个源自nuScenes的面向指令的数据集，将特定的驾驶知识融入OpenDriveVLA。把多个数据集统一为标准化的基于指令的问答格式，其中包括从nuCaption、nuScenesQA和nuX数据集收集的与驾驶相关的问答对。每一个问答对都以结构化的环境视觉token和自车状态为条件，保证了不同数据源之间的一致性。这种多模态指令调整过程使OpenDriveVLA能够有效地将语言理解与环境感知和场景理解相结合，在语言空间中实现感知、推理和行动的衔接。

运动预测和轨迹预测：在自车系统中对智能体运动预测和自车轨迹规划进行了公式化处理，模型直接预测每个实体相对于自车的局部坐标系内的未来位移，用于规划和预测。这种公式化处理以空间一致的方式捕捉了所有实体的运动动态。参照相关研究，自车状态被编码为文本输入，以确保在整个训练过程中模型都能感知自车状态。这两个任务都预测未来3秒的轨迹，采样间隔为0.5秒，每个轨迹产生6个路标点。

2）评估

在nuScenes基准测试的开环规划任务中对OpenDriveVLA进行评估，该模型在ST-P3和UniAD两种设置下接受评估。评估指标包括1秒、2秒和3秒时的L2位移误差，以及预测范围内的平均碰撞率。为了评估OpenDriveVLA的场景理解能力，在驾驶指令调整阶段之后，直接在三个驾驶视觉问答（VQA）数据集（即nuCaption、nuScenesQA和nuX）上评估其性能。VQA评估采用标准的MLG指标，包括BLEU、METEOR、CIDEr、BERT-Score等。

3）实现细节

OpenDriveVLA中的3D视觉感知模块采用以视觉为中心的设计，使用ResNet101骨干网络进行2D特征提取。该感知backbone网络通过3D目标检测、目标跟踪和地图分割的多任务学习进行预训练，得到的BEV特征图空间分辨率为200×200。为构建统一的场景表示，全局场景采样器对每个相机视角应用2D自适应池化，然后将池化后的多视图特征连接成一个全局场景token。智能体和地图token则从各自的查询transformer模块的最后一层提取。每种类型的token随后使用具有GeLU激活函数的单独两层MLP映射到语言空间。这里采用Qwen 2.5-Instruct作为预训练的大语言模型，在训练过程中对其进行全参数调整。模型在4个NVIDIA H100 GPU上进行训练，bs大小为1，大约需要两天完成训练。推理时将解码温度设置为0，以确保生成确定性的轨迹。在第3阶段，冻结2D主干网络。详细的训练配置总结在表1中。

4）主要结果

开环轨迹规划：使用ST-P3和UniAD指标在开环轨迹规划任务中评估OpenDriveVLA，以全面评估其在空间准确性和避撞方面的性能。如表2所示，OpenDriveVLA在两种设置下均取得了最先进的性能。3B和7B版本的OpenDriveVLA在ST-P3指标下的平均L2误差均为0.33米，优于先前的自回归语言模型。在UniAD指标下，OpenDriveVLA-7B也表现出色，平均L2误差为0.66米。这些结果验证了OpenDriveVLA的有效性。值得注意的是，尽管OpenDriveVLA-0.5B的参数数量明显较少，但它也取得了具有竞争力的性能，并且在很大程度上优于先前更大的模型。这凸显了OpenDriveVLA的效率，即使模型规模减小，它也能实现强大的空间和语义推理，使其成为一种有效且可扩展的语言引导规划解决方案。

驾驶问答：在基于nuScenes的三个数据集上对OpenDriveVLA的驾驶VQA任务进行评估，结果如表4和表3所示。OpenDriveVLA在所有三个数据集上均达到了一流的性能，在大多数指标上始终优于先前的语言增强驾驶模型和通用多模态基线模型。在nuCaption数据集上，OpenDriveVLA在所有评估模型中取得了最佳的字幕生成性能，优于通用多模态大语言模型LLaVA1.5和Mini-GPT4，以及特定于自动驾驶的模型LiDAR-LLM。对于nuScenesQA数据集，OpenDriveVLA也表现出色。与直接将BEV特征与语言模型融合的模型（如BEVDet+BUTD）相比，OpenDriveVLA在与物体和状态相关的问题上具有明显优势，这突出了其基于空间的视觉语言对齐的优势。值得注意的是，OpenDriveVLA-0.5B在Nu-X数据集上甚至超过了更大的7B模型，这表明即使使用轻量级大语言模型，它也具有强大的场景理解能力。

5）消融研究

消融研究考察了输入模态对OpenDriveVLA轨迹规划的影响。表5中的结果表明，视觉输入增强了决策过程，而文本高级命令和历史状态信息进一步优化了轨迹生成，这表明了语义意图和时间context的贡献。此外，发现自车状态信息在nuScenes开环规划基准测试中的轨迹预测中起着重要作用，这与先前的研究结果一致。由于数据集的分布不均衡，许多场景涉及保持当前状态，模型倾向于过度依赖自车状态历史，导致预测偏向保守。因此，为了进一步评估OpenDriveVLA的泛化能力和执行指令动作的能力，我们进行了定性研究，以检验它对不同人类命令执行各种动作的能力。

6）定性结果

驾驶指令跟随：图4展示了在交叉路口，OpenDriveVLA-7B在两种不同驾驶指令（“直走”和“右转”，以右转为真实情况）下的轨迹规划。结果表明，OpenDriveVLA能够准确解释驾驶员指令并生成相应的轨迹动作。预测的轨迹既遵循给定的指令，又能感知环境并在context上合理，展示了我们模型在复杂驾驶场景中强大的指令跟随能力和泛化能力。

与先前方法的比较：图5比较了OpenDriveVLA-7B和UniAD的开环规划结果。定性结果表明，OpenDriveVLA生成的轨迹更加稳定和适应性强，因为在窄路场景中，UniAD对右侧停放的车辆往往反应过度。与UniAD相比，OpenDriveVLA有效地保持了轨迹的平滑性和环境感知能力，展示了其在处理复杂驾驶场景方面的改进能力。

7）讨论与局限性

尽管OpenDriveVLA在各项基准测试中表现出色，但仍存在一些局限性。它缺乏明确的思维链推理，而是依赖于驾驶指令调整中的隐含推理，这可能会削弱其在复杂场景中的推理能力。此外，尽管其输入和输出的token有限，但其自回归特性阻碍了在高速驾驶中的实时部署，需要进一步优化。另外，其在开环设置下的评估并未考虑交互式交通环境中的稳健性。

参考

[1] OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model

2025-04-02 慕尼黑工大最新！OpenDriveVLA：基于大型VLA模型的端到端自动驾驶~

专为端到端自动驾驶设计的VLA模型

背景介绍与领域发展

相关工作一览

1）端到端自动驾驶

2）多模态大语言模型

3）自动驾驶中的语言模型