2025-03-05 自动驾驶思维链(CoT)来啦！Sce2DriveX：全新多模态场景理解大模型，超越所有SOTA~

原文链接：https://mp.weixin.qq.com/s/vhLpu3eUvImkDo46djhKAg

端到端自动驾驶直接将原始传感器输入建模到低级车辆控制指令，是具身人工智能的重要组成部分。尽管多模态大语言模型（MLLMs）在高级交通场景语义理解方面取得了成功，但如何有效地将这些概念性语义理解转化为低级运动控制指令，并在跨场景驾驶中实现泛化和一致性，仍然是一个挑战。我们提出了Sce2DriveX，这是一种类人驾驶思维链（CoT）推理的MLLM框架。Sce2DriveX利用局部场景视频和全局鸟瞰图（BEV）的多模态联合学习，深入理解长距离时空关系和道路拓扑结构，增强其在三维动态/静态场景中的综合感知和推理能力，实现跨场景的驾驶泛化。在此基础上，它重构了人类驾驶中固有的隐性认知链，涵盖场景理解、元动作推理、行为解释分析、运动规划和控制，从而进一步弥合自动驾驶与人类思维过程之间的差距。为了提升模型性能，我们开发了首个专门针对三维空间理解和长轴任务推理的大规模视觉问答（VQA）驾驶指令数据集。大量实验表明，Sce2DriveX在从场景理解到端到端驾驶的任务中均取得了最先进的性能，并且在CARLA Bench2Drive基准测试中表现出强大的泛化能力。

论文链接：https://arxiv.org/abs/2502.14917

引言介绍

具身智能使自动驾驶（AD）模型等智能体具备实时感知、推理并与现实世界交互的能力。然而，AD模型框架面临的一个核心挑战在于泛化性和一致性。一方面，AD学习框架可能难以对复杂、动态的交通场景进行泛化，例如多变的天气条件、道路布局、交通语义，以及周围参与者的行为偏好。另一方面，AD系统的决策策略往往与人类驾驶员的认知过程不一致，这使得人们难以理解系统的行为。这些挑战源于高级场景语义理解与低级运动控制指令之间的差距。因此，开发一种能够进行全天候、全场景感知和推理的类人框架，已成为一个备受关注的话题。

当前的AD研究通常采用小模型学习框架。由于小模型的推理能力有限，这些系统对预定义问题的响应较为僵化，在面对新的或意外的查询时，很难给出令人满意的结果。

最近，MLLMs的快速发展在各种视觉语言任务中展现出显著优势。通过将MLLMs作为高级场景语义理解与低级运动控制指令之间的桥梁，我们可以应对AD模型在泛化性和一致性方面的挑战。受益于在大量跨模态和跨学科数据上的预训练，MLLMs具有强大的推理和泛化能力，能够处理各种场景，增强跨场景驾驶的适应性。此外，MLLMs强大的文本查询和认知能力使其能够将驾驶思维与人类共识保持一致，并将复杂的推理转化为易于理解的自然语言，为AD提供了统一的解释层。然而，AD是一项复杂的任务，具有时空连续性、场景动态性和全局协调性等特点。目前基于MLLM的AD研究主要使用单帧前视图场景图像作为感知输入，这导致对时空关系和道路特征的理解不足，以及对交通场景的理解不全面。此外，在生成驾驶指令时，当前研究通常仅将场景因素映射到低级控制信号，忽略了未来车辆行为背后的推理，未能充分利用MLLMs的通用认知推理能力，与人类驾驶思维存在偏差。

除了模型框架，匹配的数据集对于模型的高效训练和性能上限也至关重要。许多数据集采用VQA的形式设计，尽管取得了一些成果，但在现有VQA数据集上训练的模型，在处理AD的复杂性时仍面临局限。这一局限主要源于交通场景与VQA数据集之间的视觉信息差异，这就要求模型有效地利用多模态感知数据的互补信息，以理解复杂场景，并从多帧数据流中捕捉物体的动态变化。此外，大多数VQA数据集是为单一驾驶任务量身定制的。它们在封闭式问题注释中，通常只提供简单的布尔答案（即“是”或“否”）或有限的多项选择响应，内容不够丰富。

为了弥补这些差距，本文提出了Sce2DriveX框架（见图1左侧）。该框架使用模态编码器将多视图场景视频和BEV地图图像的视觉表示，对齐到统一的视觉特征空间，然后通过共享投影映射到文本嵌入空间，并由大语言模型骨干进行处理，生成包括场景理解、行为分析、运动规划和车辆控制的自然语言响应。这种对局部场景和全局地图的多模态联合学习，使模型能够深入理解时空关系和道路拓扑结构，扩展其对三维动态/静态场景的综合感知和推理能力，从而实现跨场景的泛化和一致性驾驶。为了支持训练，本文构建了首个用于三维空间理解和长轴任务推理的综合VQA驾驶指令数据集（见图1中间），重点关注多模态、多视图和多帧背景下的分层场景理解和可解释的端到端驾驶任务。此外，本文还详细介绍了一种面向任务的三阶段训练流程，用于监督微调（见图1右侧），包括混合对齐预训练、场景理解微调，以及端到端驾驶微调。本文的主要贡献如下：

我们提出了Sce2DriveX，这是一种类似人类思维链推理的MLLM框架，旨在实现从多视图远程场景理解，到行为分析、运动规划和车辆控制的渐进式推理学习。
我们构建了首个用于三维空间理解和长轴任务推理的综合VQA驾驶指令数据集，并引入了一种面向任务的三阶段训练流程，以增强Sce2DriveX的感知推理能力。

大量实验表明，Sce2DriveX在场景理解、元动作推理、行为解释分析、运动规划和控制信号生成等任务中，均取得了最先进的性能。

相关工作回顾

多模态大语言模型

近年来，多模态大语言模型取得了显著进展。Flamingo和BLIP2通过门控注意力机制和Q-Former将视觉特征与大语言模型的嵌入空间对齐，而LLaVA和MiniGPT4则使用多层感知器（MLP）将预训练的视觉模块与大语言模型骨干相结合。此外，一些研究尝试将模态交互扩展到视频和音频领域。Video-LLaVA采用LanguageBind编码器将不同的视觉特征预对齐到文本空间，便于对图像和视频进行联合训练。Video-Llama通过将预训练的视觉和音频编码器集成到大语言模型中，实现了对视频数据中视觉和听觉信号的联合处理。

基于MLLM的自动驾驶

多模态大语言模型已展现出理解交通场景、优化驾驶决策以及从根本上改善人车交互的潜力。与传统的自动驾驶感知系统相比，多模态大语言模型提供了一种全新的范式，利用其固有的少样本学习能力从大量多模态数据中快速学习，从而提供更丰富的监督信息来源。PromptTrack将跨模态特征作为语义线索集成到语言提示中，并结合多模态大语言模型进行3D目标检测和跟踪。Talk2BEV将鸟瞰图（BEV）与语言提示相结合，利用多模态大语言模型实现自动驾驶中的视听融合。在端到端自动驾驶方面，多模态大语言模型也表现出更好的可解释性和可信度。DriveGPT4率先使用多模态大语言模型将传感器数据和指令转换为控制信号和文本响应。RAG-Driver提出了一种检索增强型多模态大语言模型，通过检索专家示范来生成驾驶行为解释并预测控制信号。DriveVLM将认知链模块集成到多模态大语言模型中，实现了驾驶场景描述和运动规划。然而，现有研究尚未将多模态大语言模型与人类驾驶的隐性认知链对齐，无法实现从全局和局部场景理解的结合，到行为、轨迹和控制指令的推理，这限制了跨场景泛化能力和符合人类共识的驾驶表现。

视觉问答数据集

为了支持多模态大语言模型的高效训练，大规模视觉问答数据集的设计已成为一个研究热点。目前，存在多种视觉问答数据集，包括基于图像的数据集，如CLEVR、VQA2.0和EQA，以及基于视频的数据集，如TVQA、TGIF-QA和ActivityNet-QA。对于图像问答任务，早期研究尝试将卷积神经网络（CNN）提取的图像特征与问题编码融合，然后将其输入解码器生成答案。近年来，基于Transformer的模型在图像问答任务中取得了最先进的性能。通过注意力网络，一些研究有效地捕捉了视频帧中时间上下文和空间特征之间的内在关系。3D问答是视觉问答领域中的一项新兴任务，专注于回答关于3D场景的问题，要求模型理解物体的几何结构和空间关系。最近，许多3D问答数据集被构建出来，如3DQA、ScanQA和SQA3D。尽管视觉问答领域取得了显著进展，但在处理涉及多模态、多视图和多帧上下文的复杂交通场景时，仍然面临挑战。此外，自动驾驶领域目前缺乏综合性的视觉问答驾驶数据集。

Sce2DriveX方法详解

Sce2DriveX框架

VQA驾驶指令数据集

训练流程

为进一步提升Sce2DriveX的感知推理性能，本文引入了一种面向任务的三阶段训练流程，包括：1）混合对齐预训练；2）场景理解微调；3）端到端驾驶微调。

混合对齐预训练：此阶段对齐图像/视频表示和大语言模型骨干网络的特征空间。Sce2DriveX在CC3M图像文本和WebVid-10M视频文本数据集上进行预训练，这些数据集涵盖自动驾驶以外的各种主题。在此阶段，视频编码器、图像编码器和大语言模型骨干网络的权重被冻结，仅训练共享投影层的参数。
场景理解微调：该阶段增强模型的三维空间感知能力，以实现分层场景理解。Sce2DriveX在数据集上进行微调，使用文本交叉熵损失监督其推理过程。
端到端驾驶微调：此阶段提升模型的长轴任务推理能力，以实现可解释的端到端驾驶。Sce2DriveX在可解释的端到端驾驶数据集上进行微调，采用与场景理解阶段相同的训练策略。

实验结果分析

实验设置

训练细节：将每张图像裁剪为224×224大小。从每个视频中均匀采样8帧，并对每帧进行图像预处理。每批数据包含图像和视频的组合。在预训练阶段，模型在6块80GB的A100 GPU上进行1个epoch的训练，批量大小为128。在微调阶段，使用AdamW优化器和余弦退火学习率调度器，初始学习率设置为2e-5，热身比率为0.03，梯度累积步数为2。具体来说，场景理解微调阶段对模型训练1个epoch，而端到端驾驶微调阶段对模型训练3个epoch。整个过程在8块48GB的L20 GPU上完成，每块GPU的批量大小为4。

分层场景理解

评估Sce2DriveX在分层场景理解任务中的性能。评估指标包括自然语言处理（NLP）指标，如BLEU4（B4）、ROUGE（R）、METEOR（M）、CIDEr（C）和准确率（Acc）。NLP指标用于评估文本生成质量，而准确率用于衡量与真实标签（GT labels）的一致性。需要注意的是，此处仅关注交通参与者类型的准确率。由于该任务没有基准方法，表1仅报告Sce2DriveX的结果，旨在为未来自动驾驶中分层场景理解的研究提供启发。

可解释的端到端驾驶

报告可解释的端到端驾驶任务的所有评估指标。对于运动规划（提前3秒规划的轨迹），使用L2误差（单位：米）。对于元动作推理，采用加权准确率αAcc（%），为元动作的不同部分分配特定权重，其中转向估计的权重为0.7，速度估计的权重为0.3。对于行为解释分析，使用NLP指标和GPT分数。对于控制信号生成，包括下一时刻的速度（单位：米/秒）和转向角度（单位：度），以及当前帧的加速度（单位：米/秒²）和转向速率（单位：度/秒），采用均方根误差（RMSE）。

表2展示了Sce2DriveX与基准方法在运动规划方面的对比结果（所有实验均在nuScenes数据集上进行）。与基于小模型的方法，如NMP、FF、ST-P3、UniAD和VAD，以及基于大语言模型的方法，如GPT-Driver、OmniDrive和DriveVLM相比，Sce2DriveX实现了最低的L2误差，证明了其在规划类人驾驶轨迹方面的有效性和稳健性。值得注意的是，Sce2DriveX没有使用任何隐式后处理或数据增强技术来进一步提升性能。

为了进一步验证Sce2DriveX在元动作推理、行为解释分析和控制信号生成方面的性能，使用综合VQA驾驶指令数据集实现了最新的基于多模态大语言模型的基准方法：DriveGPT4和RAG-Driver。参数设置和模型输出与原文保持一致。表3将Sce2DriveX与基准方法进行了比较，结果显示它在准确率、NLP指标和GPT分数方面均达到最高，显著提高了端到端驾驶的透明度和可解释性。此外，Sce2DriveX在速度、转向角度、加速度和转向速率的均方根误差更低，展现出卓越的推理能力。

消融实验

进行消融研究以评估Sce2DriveX框架中每个模块的贡献。具体设置包括：1）仅使用上下文学习策略测试模型（ICL）；2）从数据集中排除与元动作和解释相关的问答（w/o CoT）；3）省略场景理解微调阶段（w/o SU Fine-tuning）；4）使用前视图场景视频作为输入（w/o Multi-view）；5）移除图像编码器组件（w/o Image Encoder）。表4给出了消融研究的定量结果。可以观察到，当框架中的任何模块被更改或移除时，模型性能都会下降，从而验证了Sce2DriveX框架的合理性和有效性。

泛化性分析

为了进一步评估Sce2DriveX的泛化能力，进行了跨数据集测试。具体而言，从驾驶模拟数据集Bench2Drive中获取各种风格的极端情况样本。为了便于可视化，仅展示当前帧的全景图像。如图4所示，可以观察到Sce2DriveX能够以零样本迁移的方式生成令人满意的响应，展现出出色的泛化能力。

定性展示

图5展示了Sce2DriveX在复杂户外驾驶场景中推理过程的可视化示例，展示了其从分层场景理解到符合人类共识的端到端驾驶进行渐进式推理的能力。附录中提供了综合VQA数据集的更多定性比较和可视化结果。

结论

本文提出了Sce2DriveX框架，实现了从分层场景理解到可解释的端到端驾驶的渐进式推理。通过对局部场景和全局地图的多模态学习，该框架深入理解了长距离时空关系和道路拓扑结构，增强了跨场景驾驶的泛化性和一致性。我们构建了首个用于三维空间理解和长轴任务推理的综合视觉问答（VQA）驾驶数据集，并引入了面向任务的三阶段监督微调方法。实验结果表明，Sce2DriveX在场景理解、元动作推理、行为解释、运动规划和控制信号生成等方面表现卓越。我们希望这项工作能为多模态大语言模型在自动驾驶中的应用提供新的思路。

2025-03-05 自动驾驶思维链(CoT)来啦！Sce2DriveX：全新多模态场景理解大模型，超越所有SOTA~

实验设置

分层场景理解

发表回复取消回复

Categories

Archives

2025-03-05 自动驾驶思维链(CoT)来啦！Sce2DriveX：全新多模态场景理解大模型，超越所有SOTA~

实验设置

分层场景理解

发表回复 取消回复

Categories

Archives

发表回复取消回复