原文链接:https://mp.weixin.qq.com/s/vGkF_z9I6oP91mzvlq8_1A
近两年,端到端的技术方案,已经较为成熟,而恰好大语言模型的发展也十分迅速。二者的结合也正在如火如荼地被研究。本质上,LLMs有效地解决了传统E2E AD框架的局限性,即缺乏对驾驶任务的真正理解和可解释性。这是因为LLMs通过其认知处理能力和语言生成能力提供了有吸引力的解决方案。前者使驾驶任务能够进行细致的情境推理,而后者促进了自然的人机交互界面。
然而部署基于LLM的AD框架仍然具有挑战性。大规模语言模型的计算需求在实时决策中造成了巨大的瓶颈,这对关键规划功能的内存和处理延迟施加了巨大的限制。尽管缩小模型规模提供了基础,但当前的研究表明,LLMs的能力通常与模型规模相关,这意味着直接使用轻量架构可能会损害安全自动驾驶所需的基本认知功能。
知识蒸馏已被证明在调和模型规模和能力方面的差异方面是有效的。然而,它并没有解决LLMs提供的高级别文本推理与AVs所需的低级别轨迹规划之间的固有差异。尽管LLMs在语义推理方面表现出色,但它们并未针对AD中轨迹规划所必需的数值计算和空间推理任务进行优化。这种不匹配导致大多数现有的基于LLM的AD研究依赖于 open-loop 评测。将基于LLM的E2E AD框架转变为闭环规划对于实际AD部署是很重要的。
在本文中,作者提出了一个全新的轻量级E2E AD框架,以解决计算效率和推理与规划脱节的挑战。该框架利用轻量的LLMs实现与更大系统一样的推理和规划性能。作者的方法基于两个关键策略:首先,作者利用蒸馏方法增强轻量LLM作为AD系统的核心。这涉及到通过 chain-of-thought(CoT)提示过程将视觉大语言模型(VLM)的推理能力外部化。作者生成了明确捕获思考和回答推理的结构化数据集,从而将基础模型的推理技能转移到专用系统。作者提出了一种基于航点驱动的双头协调模块,以适当对齐推理和规划任务。该模块涉及训练数据集的共同设计,确保两个任务基于同质数据。它创新性地将规划结果作为推理过程的最终答案,从而为两个任务建立统一的优化目标。两个任务在E2E框架内联合训练,同时优化推理答案的质量和航点预测的准确性。通过将这些任务相互关联,作者的框架支持具有明确推理的闭环AD,从而增强了自主系统的可解释性和可靠性。作者的相关贡献总结如下:
- 提出了DSDrive,这是一种轻量级E2E AD框架,利用轻量LLM处理多模态输入以实现明确推理和闭环规划。具体来说,作者利用知识蒸馏使轻量LLM能够承担推理和规划任务,从而提高其整体性能。
- 提出了一个新颖的基于航点驱动的双头协调模块,该模块弥合了高级别推理和低级别轨迹规划之间的差距。通过将航点集成到明确推理过程中,作者为两个任务建立了统一目标,并促进它们共同朝着总体驾驶目标前进。
- 在CARLA中实现闭环仿真,以展示知识蒸馏和双头协调模块的有效性。所提出的DSDrive实现了与更大基准模型相当的驾驶性能,并且在几个关键指标上甚至超越了它们,特别是在计算效率方面。
论文题目: DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified Reasoning and Planning
论文链接:https://arxiv.org/pdf/2505.05360
相关工作回顾
端到端自动驾驶
E2E AD框架的一个动机是开发一种统一的方法,将感知、决策和规划任务集成在一起,通过联合优化整个流程来实现最终的驾驶性能。STP3推进了空间-时间特征学习,以统一多个驾驶任务的场景理解。在此基础上,UniAD建立了一个集成框架,协同感知和预测模块以增强规划能力。架构创新继续重塑系统设计,旨在通过更丰富的技能推进E2E AD框架。DriveTransformer通过具有稀疏表示的并行处理架构实现统一的任务交互,提高了操作稳定性。受认知机制的启发,级联决策框架纳入了多阶段安全验证以改进行动细化。互补方法包括以规划为中心的协调系统和基于视觉的多智能体协作模型,通过跨车辆感知增强紧急响应。ReasonNet实现了层次化推理架构,以改进场景理解和交通参与者行为预测。研究界同时探索了推动E2E AD框架极限的替代范式。VAD研究了矢量化场景表示,以减少运动规划中的地图依赖性,而其后续版本VADv2引入了概率规划策略和环境令牌化,以增强不确定性处理能力。尽管有这些创新,E2E方法的一个基本限制是缺乏结构化推理机制,无法将复杂场景分解为逻辑决策路径。这一缺点可以从两个角度归因。首先,传统的深度学习网络不具备进行复杂推理或解释的内在能力。其次,系统学习全面理解所需的推理模式通常在训练数据中缺失。推理能力的获取不能依赖于仅仅扩大神经网络模型和数据的规模。因此,需要范式转变,即在模型架构和训练数据中整合结构化推理机制,以解决当前E2E管道在AD中的局限性。
自动驾驶中的大语言模型
将LLMs集成到E2E AD框架中在环境推理和决策方面可以获得一些进展。为了解决E2E AD的可解释性挑战,RAG-Driver采用了检索增强的多模态LLMs,以生成人类可理解的驾驶行为解释,同时保持精确的控制信号预测,在不熟悉的环境中展示了显著的零样本泛化能力。在规划优化方面,AlphaDrive结合了基于GRPO的强化学习和推理策略,以提高训练效率和多模态规划能力。PRIMEDrive-CoT通过结合贝叶斯图神经网络和CoT推理推进了安全关键决策,并采用视觉注意力机制以提高风险评估的透明度。GPT-Driver探索了使用ChatGPT-3.5进行自然语言命令解释的人机交互范式,用于轨迹规划场景。最近在将LLMs集成到AD系统中的进展产生了几个值得注意的框架。DriveLM开创了一种多模态融合架构,通过CoT提示将语言推理与传感器输入对齐。VLP采用视觉-语言预训练以增强场景理解。WiseAD引入了知识蒸馏,将LLMs的知识压缩到轻量级策略网络中。Sce2DriveX提出了一个场景感知的编码器-解码器框架,以提高在不同驾驶条件下的泛化能力。LMDrive开发了一种具有时空令牌化的E2E架构,用于轨迹预测,但其设计中缺乏明确的推理机制。如表I所示,尽管这些方法通过改进感知和推理中的多模态对齐在开环评估中取得了进展,但它们共同未能充分解决闭环驾驶场景的问题。闭环驾驶要求对齐推理和规划任务,并对计算资源提出了更严格的要求。这一限制强调了开发E2E AD系统的迫切需求,该系统能够协调轻量级LLM部署与强大的闭环规划能力。

推理模型


端到端驾驶模型




推理蒸馏
在作者的框架中,大规模 VLM 被定义为推理模型,因其具备高级推理能力并可通过显式推理过程增强 AD 系统。而驾驶模型负责实际车辆规划,但因模型规模紧凑推理能力有限。本框架的关键在于将推理能力从推理模型(大规模 VLM)蒸馏至驾驶模型(轻量 LLM)。
为实现此目标,作者采用教师强制策略(算法 1)。该蒸馏过程将轻量驾驶模型暴露于与大规模推理模型相同的输入数据,并引导驾驶模型生成与推理模型高度匹配的推理答案。基于 LLM 主干生成的隐藏状态序列,提取最后若干关键帧的隐藏状态,并与真实答案的嵌入标记拼接,以促进教师强制训练。该组合序列随后通过答案预测器生成序列中各标记的预测。此训练过程旨在最小化驾驶模型预测答案与训练模板(包含 VLM 生成答案及真实数据)的差异,使驾驶模型内化大规模模型展示的推理策略。


实验与结果
作者假设通过聚焦关键推理模式,基于轻量 LLM 的端到端驾驶模型可通过蒸馏获得核心推理能力,从而在避免高计算开销的同时提升闭环驾驶性能。围绕此研究动机,实验设计从三个关键维度对方法进行全面评估:定量与定性性能、双头协调模块有效性及计算效率。
评价指标
采用以下闭环驾驶评价指标:
- 路线完成率 (RC):完成路径距离的百分比,值越高表明任务完成度越好。
- 违规分数 (IS):量化碰撞、车道偏离、交通信号违规等行为。初始值为 1.0,按事件严重性扣减,值越高表明驾驶越安全。
- 驾驶分数 (DS):综合 RC 与 IS 的复合指标,值越高越好。
- 关键事件数:统计碰撞、红灯违规等事件数量,按场景数归一化。
基准对比
对比方法包括:
- LMDrive (LLaVA-7B):直接使用 LMDrive 官方模型(当前 LLM 闭环端到端 AD SOTA)。
- LMDrive (LLaMA-1B):LLaMA-1B 轻量版,训练策略与数据集同 LMDrive。
- Vanilla (LLaMA-1B):未微调的原始 LLaMA-1B 模型。
在 LangAuto 三组基准(Long/Short/Tiny)上的测试结果如表 II 所示。核心发现如下:
- Vanilla (LLaMA-1B) 表现最差,验证轻量 LLM 直接用于复杂闭环任务的局限性。
- LMDrive (LLaMA-1B) 仅小幅提升性能,未超越大规模模型。
- DSDrive 通过 VLM 蒸馏显著增强推理能力,在 DS 与 RC 上接近甚至超越 LMDrive (LLaVA-7B)。IS 表现略低但可接受,主要短板为车道偏离率较高。
定性分析
Think-and-Answer 推理过程
作者通过 CARLA 模拟器中的代表性场景展示了推理过程,如图 3 所示。上半部分展示了每个场景的关键帧,提供了驾驶环境的视觉上下文。下半部分包括详细的推理内容。
场景 (a):这是一个夜间城市环境,天气状况良好。在低光照条件下,DSDrive 成功识别了交通信号,并执行了停车操作。
场景 (b):该场景要求车辆在 T 型路口右转,车辆需要在多个显示不同指示的交通信号中准确识别正确的信号,以便执行右转操作。DSDrive 成功区分了适当的交通灯,执行了右转操作,展示了其解析复杂视觉信息和遵守交通规则的能力。
场景 (c):该场景描绘了一个郊区环境,左侧有迎面而来的车辆。DSDrive 成功识别了左侧驶来的黑色轿车。
场景 (d):该场景发生在交通相对繁忙的高速公路上。尽管交通拥堵,DSDrive 成功识别出周围车辆均未直接影响其行驶路径,从而保持稳定行驶。

在上述场景中,DSDrive 展示了在识别交通信号、执行转弯以及在从城市街道到高速公路的各种环境中导航的强大性能。明确的思考和回答推理过程表明,DSDrive 成功从视觉大语言模型中学习了高级推理能力,并将其应用于端到端自动驾驶框架。这种在多样化场景中的一致性能强调了 DSDrive 在解释视觉线索和做出明智决策方面的有效性和可靠性。更重要的是,通过基于航点驱动的双头协调模块,DSDrive 内的 LLM 展示了根据动态交通状况准确预测航点的关键能力。这种能力对于自动驾驶系统最终规划阶段至关重要。
代表性场景
代表性场景被包含进来,以提供对 DSDrive 在闭环驾驶中的能力的见解,因为这是本研究的目标。交通灯的管理能力在图 4 中进行了讨论。首先,DSDrive 能够检测到红灯并在前方车辆的安全距离处停下。一旦交通灯变为绿色,DSDrive 就会无缝地从静止状态过渡到积极驾驶。随后,如图 5 所示,车辆根据导航指令执行左转。这一序列强调了 DSDrive 在复杂城市环境中解释和执行导航指令的能力,反映了其在推理和操作执行方面的有效整合。

推理能力
作者进一步评估了答案的质量,以提供对 DSDrive 推理能力的见解。作者比较了 DSDrive 和 Qwen2.5-VL-7B 生成的答案,在场景理解、目标检测、驾驶行为和航点预测方面进行了比较。尽管与 Qwen2.5-VL-7B 相比,DSDrive 的模型尺寸较小(1B),但在指定的自动驾驶推理能力方面并不逊色。在某些方面,它甚至优于 Qwen2.5-VL-7B。例如,在场景理解方面,DSDrive 准确识别出具有反光表面的湿滑道路状况,而 Qwen2.5-VL-7B 未能识别这一细节。在目标检测方面,DSDrive 注意到左侧的骑自行车者,并考虑了其对车辆路径的潜在影响。在驾驶行为方面,DSDrive 考虑了在安全的情况下继续行驶的进一步操作,而不仅仅是停在停车标志处,而 Qwen2.5-VL-7B 的答案在停在停车标志处就结束了。值得注意的是,DSDrive 能够通过基于文本的推理过程预测航点,与端到端自动驾驶框架中的航点预测器的目的相一致,而 Qwen2.5-VL-7B 并未明确调整以支持此功能。这一差异突显了作者通过训练数据集和模型架构的有意设计,在语义推理任务和数值轨迹规划任务之间实现的有效对齐。
双头协调
DSDrive 中的基于航点驱动的双头协调模块的创新之处在于两个方面。首先,航点被嵌入训练数据集中,用于在所提出的框架内蒸馏推理能力,为两个任务创建共同目标。其次,端到端驾驶模型构建了推理和规划的互连预测头。这两个密切相关任务因此相互补充,推理输出为规划结果提供解释,而规划头可以生成类似于推理头的轨迹预测,但在推理上更高效,便于部署时使用。
这一研究提出了以下问题:
- (1)双头协调模块是否如预期般有效地对齐了推理和规划任务?
- (2)这种设计是否增强了 DSDrive 作为自动驾驶代理在闭环驾驶场景中的性能?
针对第一个问题,图 8 通过直接可视化推理和规划头预测的航点对齐情况,提供了定性展示。
场景(a)描绘了交通流量适中的高速公路。推理和规划头预测的航点显示出相似的运动轨迹,使自动驾驶车辆能够跟随前方车辆、通过弯道并在交通流中平稳巡航。
场景(b)描绘了一个环岛场景,自动驾驶车辆展现出以下行为,正如航点预测所示:进入环岛、在环岛内正常行驶以及为穿越路径的骑自行车者让路。在这种让行情况下,推理和规划头预测的航点都显示出停车倾向,以确保与骑自行车者的安全交互。随后,当路径无障碍物时,自动驾驶车辆加速恢复到正常速度。
场景(c)描绘了一个典型的带有交叉口的城市驾驶场景。最初,预测的航点反映出自动驾驶车辆在接近红交通灯时的减速阶段。随后,当交通灯变为绿色时,航点表明自动驾驶车辆加速通过交叉口。之后,推理和规划头预测的航点对应于在交叉口执行左转的任务。最后,这些航点与后续的巡航阶段相一致。

针对第二个问题,作者进一步进行了消融研究,以评估双头协调模块设计对驾驶性能的影响。作者在 LangAuto 基准测试中进行了闭环模拟,涵盖微型、短途和长途路线,实验结果总结于表 III。Dual-task 指代作者的方法。作者对训练数据集进行了两种消融:CoT only 使用视觉大语言模型生成的答案,而不嵌入诸如导航指令或航点等真实数据。GT only 则仅用真实数据构建,但没有视觉大语言模型的输入。结果表明,作者的方法在驾驶分数(DS)、路线完成率(RC)和违规分数(IS)方面均优于两种消融方法,这支持了基于航点驱动的双头协调模块设计在促进端到端闭环自动驾驶方面的优越性。
计算效率
DSDrive 作为一种专为端到端自动驾驶系统设计的轻量大语言模型,其主要目标是在减少推理时间和内存消耗的同时优化计算效率,从而提高在实际应用中部署此类系统在计算资源有限的环境下的可行性。如表 IV 所示,作者对 DSDrive 与采用 LLaVA-7B 和 LLaMA-1B 的 LMDrive 进行了比较分析,以了解 DSDrive 在推理资源需求方面的表现。结果突显了 DSDrive 相比现有模型的计算效率。

在推理时间方面,DSDrive 的表现与采用 LLaMA-1B 的 LMDrive 模型相当,且略快于采用 LLaVA-7B 的模型。在内存使用方面,DSDrive 的峰值内存需求为 8082 MB。尽管与采用 LLaMA-1B 的 LMDrive(6682 MB)相比有所增加,但远低于采用 LLaVA-7B 的模型所需的 14263 MB。与采用 LLaMA-1B 的 LMDrive 相比,DSDrive 的内存使用量虽有适度增加,但鉴于 DSDrive 提供的增强能力和鲁棒性,这种增加是合理的,表明在内存效率与模型性能之间取得了平衡的权衡。这些结果的含义有两方面。首先,DSDrive 与 LMDrive 系列之间相当的推理时间表明,在 DSDrive 的架构中整合推理能力并不会显著降低端到端自动驾驶系统的处理速度。其次,与 LLaVA-7B 相比,DSDrive 的内存效率凸显了其在硬件约束是关键考量因素的环境中部署的适用性。重要的是,DSDrive 适度的内存需求使其能够在如 NVIDIA Orin 平台等先进嵌入式基础设施上部署,从而促进自动驾驶技术的更广泛应用。
结论
在本文中,作者提出了 DSDrive,这是一种端到端自动驾驶(AD)框架,利用轻量型大语言模型(LLM),通过知识蒸馏技术,将小模型的计算效率与大型模型的强大推理能力相结合。
此外,DSDrive 通过基于航点驱动的双头协调模块,成功弥合了高级别推理和低级别规划之间的差距。作者通过广泛的闭环模拟实验来评估 DSDrive 的性能。实验结果表明,尽管 DSDrive 的模型尺寸较小,但其驾驶性能与大型系统相当,甚至在某些关键指标上超越了它们。

发表回复