原文链接:https://mp.weixin.qq.com/s/u4MjQ0DLhE_pTsLKyHcAQQ
端到端自动驾驶作为一种统一感知、预测和规划的方法,能够在统一框架内减少信息损失并提高适应性,近年来备受关注。然而,现有方法通常依赖于固定且稀疏的轨迹监督,这限制了它们捕捉人类驾驶员自然采用的层次化推理过程的能力。为了弥补这一差距,上海科技大学和港中文的团队提出了ReAL-AD,这是一种推理增强学习框架,基于三层人类认知模型(驾驶策略、驾驶决策和驾驶操作)来构建自动驾驶中的决策过程,并引入视觉-语言模型(VLMs)以增强环境感知和结构化推理能力。具体而言,我们引入了:(1) 策略推理Injector:通过解析VLM生成的复杂交通情境见解来制定高层次的驾驶策略;(2) 驾驶推理Integrator:将行驶意图细化为可解释的驾驶选择,如变道、超车和速度调整;(3) 层次化轨迹解码器:逐步将驾驶决策转化为精确的控制动作,以实现流畅且类人的轨迹执行。广泛的评估表明,集成我们的框架提高了规划准确性和安全性超过30%,使得端到端自动驾驶更加可解释,并与类人层次推理对齐。
- 论文链接:https://arxiv.org/abs/2507.12499
- 主页链接:https://4dvlab.github.io/project_page/realad
引言
端到端自动驾驶因其优势,如最小化信息损失和简化系统架构,受到了广泛关注。然而,现有方法面临根本性的局限。最显著的是,它们依赖于固定且稀疏的轨迹监督,这无法复制人类驾驶员内在的结构化认知推理过程——这一过程涉及对情境关系(例如,交通规则、交互意图)的分层理解以及适应性决策层次。
最近的研究引入视觉-语言模型(VLMs),旨在通过利用其语义推理能力和跨模态对齐来解决这些挑战。大多数研究将VLMs视为辅助模块,提供额外的语义线索以增强感知和规划。这些方法将语义推理视为一个孤立的预处理步骤,而不是有机地嵌入到决策层次中,在该层次中,战略规划、驾驶决策和操作控制协同工作。
这种缺乏结构化多阶段推理的现象阻碍了泛化能力,并限制了当前基于VLM的解决方案在多样化的现实世界场景中的有效性。

高层次推理逐步细化到精确执行。在驾驶策略层面,驾驶员分析整体驾驶场景以建立战略理解。这包括识别关键交通元素、优先考虑相关目标,并结合交通规则和道路条件等情境因素。这种战略意识为后续决策奠定了基础。在驾驶决策层面,驾驶员将战略理解转化为驾驶选择,例如决定是否保持车道、超车或调整速度。这些决策是根据交通流、周围车辆和预测的交互动态做出的,以确保安全高效的机动。在驾驶操作层面,驾驶员将驾驶决策细化为精确的车辆控制动作。这包括调整转向、油门和刹车以执行预期的机动动作,进行包括变道在内的横向控制以保持稳定和安全。然而,大多数现有的端到端自动驾驶系统未能显式建模这种分层认知过程。相反,它们通常依赖于没有结构化推理的直接轨迹预测,导致规划次优且缺乏类人决策的粒度。
基于这一见解,我们提出了ReAL-AD,这是一种用于自动驾驶的新型推理增强学习框架,利用视觉-语言模型(VLMs)的能力将类人的分层决策嵌入到端到端自动驾驶系统中。受人类驾驶员结构化认知过程的启发,ReAL-AD引入了一个多层架构,显式建模从战略推理到驾驶执行的决策过程,从而在动态环境中提高可解释性和适应性。
具体而言,策略推理注入器从VLM生成的见解中提取高层次的情境意识,并将其编码为以自车为中心的查询以指导下游规划。驾驶推理整合器将这些高层次的决策细化为结构化的、可解释的驾驶控制命令,确保与现实世界驾驶约束的可行性和一致性。最后,层次化轨迹解码器采用分层变分解码器,通过两阶段过程逐步细化轨迹规划,确保高层次战略意图与低层次驾驶执行之间的一致性。通过在所有决策层级整合基于VLM的推理,ReAL-AD显著提高了在复杂动态交通场景中的可解释性、适应性和整体驾驶性能。
我们在NuScenes和Bench2Drive数据集上进行了广泛的实验,结果证明了我们的方法相对于现有方法的优越性能。与基线方法相比,我们的方法在L2误差上减少了33%,碰撞率降低了32%,显著提高了轨迹准确性和驾驶安全性。此外,全面的消融研究系统地评估了每个组件的贡献,进一步验证了我们框架的有效性。我们的贡献可以总结如下:
- 提出了ReAL-AD,这是一种新颖的推理增强端到端自动驾驶框架,明确引入了分层决策,并将轨迹规划与人类认知过程对齐。
- 引入了用于VLM驱动决策整合的策略推理注入器、用于结构化控制的驾驶推理整合器,以及用于分层轨迹细化的层次化轨迹解码器,确保从推理到执行的一致性。
- 在NuScenes和Bench2Drive数据集上实现了轨迹规划准确性和安全性指标超过30%的提升,同时消融研究确认了每个组件的贡献。
相关工作回顾
端到端自动驾驶
端到端自动驾驶规划方法通过同时训练多个模块来实现其最终目标,减少了在流水线过程中的信息损失,使其成为热门研究领域。ST-P3引入了一种设计,通过整合多个辅助信息或任务来增强规划性能。UniAD在开环评估中展示了出色的性能。随后VAD引入了紧凑的矢量化场景表示,这不仅提高了规划效率,还降低了计算成本。PARA-Drive研究了在端到端框架内辅助任务设计顺序的影响。GenAD将自动驾驶建模为未来生成问题,在结构化潜在轨迹空间内同时进行运动预测和自车规划。此后,诸如VADv2和DiffusionDrive等研究探索了将概率建模整合到规划中以提高准确性。
然而,这些方法依赖于一组固定的未来自车轨迹作为真实值,导致监督稀疏。这在人类驾驶员使用复杂决策的情况下存在问题,因为单独的自车轨迹无法捕捉到这些复杂决策。这限制了自动驾驶系统的学 习和泛化能力。相比之下,我们的方法利用视觉-语言模型(VLMs)来更深入地理解驾驶行为。通过整合高维策略和驾驶命令,并通过分层解码器以更细粒度预测轨迹,网络模仿了人类的推理过程,增强了规划决策和整体自动驾驶性能。
用于自动驾驶的VLMs
近年来,视觉-语言模型(VLMs)在广泛的任务中展示了卓越的性能,并将它们整合到自动驾驶系统中已成为重要的研究领域。许多研究将VLMs视为接收驾驶场景图像和文本提示作为输入,并生成驾驶决策作为输出的代理。例如,Drive-with-LLMs将感知信息编码到潜在空间,然后输入到大型语言模型(LLM)中以预测未来规划轨迹。DriveGPT4采用前视相机视频输入,利用VLMs预测用于规划的控制信号并提供决策解释。LanguageMPC将历史真实感知数据和高清地图转换为语言格式,使用链式推理分析驾驶场景并生成规划动作。AgentDriver将驾驶情境转换为具有类人智能的文本描述,然后使用LLM进行推理和规划。此外,DriveMLM验证了在闭环仿真环境中基于VLM的规划模型的有效性。然而,尽管VLMs可以捕捉复杂的视觉和语言线索,但它们往往缺乏对驾驶行为潜在物理特性和约束的全面掌握,以及有限的3D空间理解能力,导致与考虑更全面环境反馈的端到端系统相比,轨迹预测的准确性和安全性较低。
另一种方法是将VLMs的决策能力作为额外输入整合到端到端自动驾驶系统中。这种方法主要集中在利用VLM输出来细化或指导这些系统的学习过程。DriveVLM将VLM用作较慢的系统来生成驾驶轨迹,必要时使用互补网络作为参考。VLM-AD将VLM用作教师生成自由形式的推理并构建动作注释,从而辅助端到端网络的学习。VLP通过加强车辆上下文和环境的理解来增强自动驾驶系统。Senna将高层规划与低层轨迹预测解耦,创建了一个更加模块化和可解释的规划框架。现有方法通过蒸馏和对比学习来整合决策特征,但将语义推理视为一个独立的预处理步骤,限制了在现实世界场景中的泛化能力。为了解决这个问题,我们利用VLM生成驾驶策略和驾驶命令,并引入一个分层轨迹解码器将这些决策转化为精确的控制动作,模拟人类驾驶的思考过程。
算法详解
概述
在本节中,我们提出了一个基于视觉-语言模型(VLM)的类人推理增强学习框架,将三层人类认知模型——驾驶策略、驾驶决策和驾驶操作——整合到端到端自动驾驶系统中。首先回顾传统端到端规划系统的操作范式。为了引入类人推理模式,我们开发了以下三个模块:
- Strategic Reasoning Injector:通过解释来自VLM生成的复杂交通情境见解,制定高层次的驾驶策略;
- Tactical Reasoning Integrator:将战略意图细化为可解释的驾驶选择;
- Hierarchical Trajectory Decoder:通过层次化规划——首先建立粗略的运动模式,然后细化详细的轨迹——模拟人类直觉的精炼过程。
初步知识
在基于视觉的端到端自动驾驶系统中,多视角相机图像流首先由图像主干网络(例如ResNet)处理,以提取2D视觉特征。这些特征随后通过视图转换模块被转换为3D或鸟瞰图(BEV)场景表示,捕捉道路布局、智能体位置和车道拓扑等场景几何信息。基于Transformer的任务特定解码器使任务查询(例如智能体查询、地图查询)能够与场景特征交互,建模与规划相关的表示。规划模块初始化一个自车查询嵌入,通过交叉注意力层关注场景特征和任务查询,构建自车特征,使自动驾驶车辆能够理解其状态。最后,轨迹解码器(通常是一个多层感知机MLP)通过从自车特征回归来预测未来的路径点。

Strategic Reasoning Injector

Tactical Reasoning Integrator

Hierarchical Trajectory Decoder

损失函数

实验结果分析
设置
基线模型:我们的方法支持不同的端到端规划网络和视觉-语言模型(VLMs)。在本文中,我们使用 VAD 和 UniAD 作为基线,并选择 MiniCPM-Llama3-2.5V 和 Qwen-VL 作为VLMs。
数据集:我们在 nuScenes数据集 上评估开环规划,该数据集包含1,000个20秒的场景,以2Hz标注,是端到端自动驾驶的关键基准。对于开环和闭环评估,我们使用 Bench2Drive,该数据集包含来自44种场景、23种天气条件和12个CARLA v2城镇的13,638个片段的200万帧。其严格的闭环协议在220条路线上评估E2E-AD模型,确保了公平和全面的性能评估。
评估指标:对于开环评估,我们使用 L2误差 和 碰撞率。L2误差衡量规划轨迹与地面真实轨迹之间的距离,而碰撞率则量化与交通参与者碰撞的情况。默认情况下,我们使用VAD指标在1秒、2秒和3秒时进行评估。对于闭环评估,我们使用 驾驶评分(Driving Score) 和 成功率(Success Rate)。驾驶评分反映了路线完成情况,同时考虑违规情况,而成功率则是无违规完成路线的百分比。
实现细节:对于基线模型,我们使用官方代码并遵循其官方实现中指定的超参数。λ₀、λ₁、λ₂、λ₃ 分别设置为1.0、0.5、0.5和1.0;βc设为0.5,βf设为1.0。模型在8块NVIDIA A40 GPU或4块NVIDIA 4090 GPU上使用PyTorch框架进行训练。

主要结果
开环评估:为了更好地评估我们框架的有效性,我们在 nuScenes 和 Bench2Drive 数据集上将我们的方法与几种最先进的方法进行了比较。如表1和表2所示,我们的方法相较于基线方法 VAD 和 UniAD 实现了显著改进,尤其是在 L2误差 和 碰撞率 上,改进幅度超过30%。值得注意的是,我们的性能也优于其他基于VLM的方法,例如使用相同基线的 VLP 和 VLM-AD,在nuScenes上实现了最低的平均L2误差(0.48米)和碰撞率(0.15%),在Bench2Drive上达到了0.84米和0.12%。这表明引入人类决策过程使网络在学习驾驶能力方面更加有效。
闭环评估:尽管开环指标提供了部分性能结果,我们在 Bench2Drive 上进行了闭环评估以评估实际应用能力。结果表明,在集成我们的框架后,驾驶评分和完成路径数量都相较于基线有了显著提升,表明引入人类思维过程成功提高了驾驶掌握能力。


消融研究
我们在 Bench2Drive验证集 上进行了消融研究,以评估我们提出的模块。参考VAD,我们在此采用两阶段训练策略以加速实验。所有消融模型共享相同的阶段1检查点以进行公平比较,所有实验均使用NVIDIA 4090 GPU,并基于VAD-base和MiniCPM-Llama3-2.5V基线。
战略推理注入器的有效性:为了评估战略推理注入器模块的有效性,我们进行了消融研究,通过移除该组件进行实验。如表3(设置0和1)所示,其缺失导致平均L2误差增加了约12%,平均碰撞率增加了19%。这表明战略决策引导了自查询建模,使其能够自适应地优先考虑与当前场景决策过程相关的信息,从而提高整体规划性能。

Effectiveness of Strategic Reasoning Injector:如表3所示,设置2和6验证了该模块的有效性。在设置2中,我们将嵌入的命令特征与建模的自查询特征连接,并通过解码器获得最终输出。比较设置0和2,我们观察到平均L2误差减少了0.14米,平均碰撞率减少了0.05%。这些结果表明,战术命令比战略决策更接近规划的指导,降低了学习空间的复杂性,并使网络能够做出更有根据的决策。
层次化轨迹解码器的有效性:为了突出层次化轨迹解码器的重要性,我们用直接基于自特征预测未来轨迹的MLP替换了它。这种修改导致L2误差增加0.07米,碰撞率上升0.07%(设置0 vs. 3),表明直接解码细粒度轨迹的挑战性。缺乏从易到难、从粗到细的分层解码阻碍了模型细化轨迹预测的能力,最终导致性能次优。
更多分析
在本节中,我们进一步分析了在 Bench2Drive验证集 上设计的模块。设置与消融研究中的设置一致。更多分析实验和用于定性评估性能和可解释性的可视化结果在附录中提供。
关于编码驾驶策略特征的相似性损失的讨论:如表4所示,我们移除了编码地面真实轨迹和相似性损失的组件。我们可以观察到L2损失和碰撞率都增加了,这可以归因于由VLM文本编码器编码的战略策略文本特征与端到端网络中使用的感知特征之间的差距。相似性损失帮助适配器弥合这一差距,使文本特征更接近轨迹预测所需的特征。这反过来更好地引导了自查询的学习,提高了性能。

关于层次化轨迹解码器中不同层数的讨论:如表5所示,我们在解码器中尝试了不同的层数。一层表示细粒度轨迹的直接输出,而两层遵循描述的方法。在三层设置中,我们调整解码器为三层,并使用贝塞尔曲线拟合粗略轨迹生成更粗的地面真实值进行联合监督。实验表明,从一层增加到两层显著提高了性能,但过多的层数引入了不必要的复杂性,导致过拟合和丢失对准确预测至关重要的细粒度细节。
结论
本文提出了 ReAL-AD,这是一种推理增强学习框架,通过利用视觉-语言模型(VLMs)在策略、决策和操作层面上的结构化推理,增强了端到端自动驾驶。通过模拟类人的层次化决策过程,ReAL-AD 将战略决策与战术命令以及轨迹优化相结合。在 NuScenes 和 Bench2Drive 数据集上的广泛实验表明,其在轨迹规划准确性和驾驶安全性方面达到了最先进的性能。

发表回复