2026-03-07 突破强化学习瓶颈！清华ELF-VLA：通过显式错误学习释放自驾VLA潜能 (CVPR’26)

原文链接：https://mp.weixin.qq.com/s/hg4dCFAf_Apk-coXw9PLcw

用于自动驾驶的视觉-语言-动作 (VLA) 模型在强化学习 (RL) 优化过程中经常会遇到性能瓶颈。这种停滞源于先前监督微调 (SFT) 限制了模型的探索能力，导致在长尾场景中“持续性失败”。在这些关键情况下，所有探索的动作都只会产生零值的驾驶得分。这种信息稀疏的奖励虽然表明模型出现失败，但却无法识别其根本原因——无论是错误的规划、错误的推理，还是糟糕的轨迹执行。为了解决这一局限性，我们提出了从显式失败中学习的VLA框架(ELF-VLA)，该框架通过结构化的诊断反馈来增强 RL。我们的方法不依赖于模糊的标量奖励，而是生成详细且可解释的报告，从而识别具体的失败模式。VLA 策略随后利用这些显式反馈来生成反馈引导的改进策略。通过将这些经过修正的高奖励样本重新注入强化学习训练批次，我们的方法提供了一个有针对性的梯度，使得策略能够解决无引导探索无法解决的关键场景。大量实验表明，我们的方法释放了VLA模型的潜在能力，在公开的NAVSIM基准测试中，针对整体PDMS、EPDMS和高级规划精度，均达到了目前最先进的性能。

论文标题：Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

一、背景回顾

自动驾驶系统的发展正经历着从传统模块化架构向端到端框架的范式转变。视觉-语言-动作（VLA）模型处于这一转变的前沿。这些模型通过对大型视觉-语言模型（VLM）应用监督式微调（SFT）和强化学习（RL），将原始摄像头传感器输入映射到连贯的车辆运动指令。这种集成设计消除了人工设计的接口，并支持大规模、数据驱动的策略学习。值得注意的是，VLA模型可以通过“思考”模块生成中间推理轨迹，模拟人类的问题解决策略，为实现可解释且值得信赖的自动驾驶提供了一个有前景的方向。

尽管取得了这些进展，强化学习微调仍然面临性能瓶颈：我们观察到，在SFT之后，模型的策略探索能力受到SFT数据集局限性的严重约束，其中常见场景非常普遍，而能够严格测试自主系统能力的安全关键场景却很少见。因此，在安全关键且具有挑战性的场景下，所有探索性规划均失败，导致驾驶得分为零，如图1顶部所示。现有的VLA-RL方法将训练期间的性能评估简化为单一标量奖励（例如，PDMS）。当模型失败时，这种信息稀疏的奖励不足以精确定位错误的根本原因，因此无法确定失败是源于“思考”模块中高层规划的累积误差、对关键目标的认知推理缺陷，还是底层轨迹的动态缺陷。为了克服这些局限性并实现持续学习，本文提出了一种新型的VLA训练框架，用于自动驾驶，该框架能够衔接失败诊断和策略修正。

如图1底部所示，其核心思想是提供结构化的失败分析反馈，以帮助VLA运用其“先思考后行动”的架构，而不是依赖简单的标量奖励。该方法包含两项核心创新：

VLA能力匹配反馈：我们引入了一种基于教师模型的反馈机制，当VLA遇到持续性失败时，该机制会被触发。该模型会生成一份与VLA能力相匹配的结构化诊断报告，精确指出VLA在规划、推理或执行层面的具体错误。
反馈引导的改进和重新注入：VLA策略模型（Student）利用该诊断报告生成修正后的轨迹。然后，将这个高奖励的修正样本重新注入到GRPO训练Batch中。该过程提供了一种目标导向的梯度信号，而这种信号在之前的Rollout batch中并不存在。

通过在 Navsim 基准测试集上的广泛评估，我们的方法相比现有的 VLA Baseline展现出显著的性能提升。我们的方法在整体驾驶指标 (PDMS、EPDMS) 和高级规划精度方面均达到了 SOTA 水平。通过将可解释反馈与策略修正相结合，我们的工作为 VLA 模型克服自动驾驶中的性能瓶颈提供了一条切实可行的途径。

二、ELF-VLA算法详解

在本节中，我们展示了我们提出的方法，它主要包含两个组成部分：

（1）两阶段的监督微调（SFT）过程；
（2）一种通过失败反馈增强的强化学习（RL）框架。

VLA 输入定义

用于认知和优化的两阶段SFT

带有失败反馈的强化学习

实验结果分析

实施细节

性能比较

Navsim Benchmark。

表 1 展示了 ELF-VLA 与当前领先方法在 NAVSIMv1 基准测试上的性能比较。在纯视觉（vision-only）设置下，ELF-VLA 获得了 91.0 的 PDMS，确立了新的最先进水平（SOTA）。这一结果表明，与之前最好的纯视觉方法 DriveVLA 相比，其 PDMS 取得了 0.7 的显著提升。此外，ELF-VLA 分别以 3.6 和 2.0 的 PDMS 优势超越了仅使用监督微调（SFT-only，InternVL3-8B-SFT）和传统强化学习（traditional RL，InternVL3-8B-RL）的baseline模型。

在 NAVSIMv2 基准测试（表2）中，ELF-VLA 延续了其强劲的表现，以 87.1 的 EPDMS 创下了新的 SOTA。这一得分比之前由 DriveVLA-W0 创下的最佳成绩高出了 1.0 个 EPDMS。这些发现表明，与传统的强化学习方法相比，我们的方法 ELF-VLA 显著增强了模型的自动驾驶能力，特别是在应对具有挑战性的复杂驾驶场景时。此外，在两个基准测试中的出色表现证实，ELF-VLA 并非仅仅是对 PDMS 指标的过拟合；相反，它在截然不同且更为全面的 EPDMS 指标上同样表现优异，展现出了强大的泛化能力。

定量评估。我们将 ELF-VLA（表 3）的性能与几种精心设计的消融模型进行了比：

SFT（baseline）：仅通过监督微调训练的基础模型。
GRPO：使用传统的 GRPO 算法对 SFT 模型进行进一步微调。
GT-GRPO：在添加了真实轨迹 (GT) 的响应集上对 SFT 模型进行微调，这些真实轨迹是直接添加的。
Rule-GRPO：在添加了新响应的响应集上对 SFT 模型进行微调，这些新响应是基于预定义规则的反馈重新生成的。
ELF-VLA：SFT模型基于一个包含新的、改进的响应集进行微调，这些响应集是根据我们教师模型的结构化反馈重新生成的。

值得注意的是，ELF-VLA 实现了最佳的整体性能。我们的方法比传统的GRPO方法高出 2.0 PDMS。这表明，通过引入结构化反馈和重新生成更好的分布内的轨迹，我们的方法解决了持续性失败问题。此外，ELF-VLA 分别超过了 GT-GRPO 和 Rule-GRPO 1.8 和 1.4 PDMS。这凸显了这两个baseline的明显局限性。对于 GT-GRPO，GT 轨迹表现出与原始 VLA 生成的响应有显著的分布偏移。这些低概率性的GT响应使得优化变得困难。对于 Rule-GRPO，预定义规则的反馈对模型的影响有限。这个过程类似于简单的自我修正，缺乏细粒度的指导，导致模型无法从如此简单的反馈中学习到有效的轨迹校正。相反，ELF-VLA 利用教师模型广泛的通用知识对原始响应进行深入的结构化分析。VLA 模型接收这种全面的反馈，使其能够从错误中学习并微调轨迹。这个过程产生了一个卓越的、更容易优化的微调轨迹。

总失败率分析。我们分析了这些模型在强化学习训练阶段的失败率，如图 4 所示。具体来说，我们测量了所有展开轨迹在以下关键指标上同时失败的样本比例：PDMS、DAC 和 NC。如图所示，虽然像 GT-GRPO 和 Rule-GRPO 这样的中间策略有助于降低失败率，但 ELF-VLA 在所有指标上都展现了最显著的改善。ELF-VLA 将总失败的 PDMS 发生率从 2.73%（对于 GRPO）降低到仅 1.08%，在 NC 和 DAC 上也观察到了同样明显的降低。这一结果进一步验证了我们的方法使模型能够从错误中学习，解决持续失败的问题，并最终提高整体的驾驶安全性和鲁棒性。

Meta Action评估。如表4所示，我们的结果突显了ELF-VLA在高层规划方面的显著优势。ELF-VLA在纵向速度精度和横向路径精度方面均取得了最佳结果，整体规划精度高达80.3%，比传统的GRPO高出1.0%。此外，与开源模型相比，ELF-VLA的精度比规模更大的Qwen2.5-VL-72B模型高出51.6%。这一改进源于教师模型提供了修正的meta action，VLA模型学习并内化了这些meta action。这表明ELF-VLA能够从失败案例中学习，从而改进其高层规划策略。 4.3. 消融实验

训练数据消融。如表 5 所示，我们研究了训练数据量和组成对强化学习 (RL) 的影响。使用完整的 85k 数据集（89.1 PDMS）或随机抽取的 24k 子集（88.9 PDMS）均未获得最优结果。相比之下，我们根据第 3.3 节的指导精心整理的 24k 数据集 (24k*) 取得了 91.0 PDMS 的最佳性能。这表明完整的 85k 数据集主要由简单的场景组成，提供的学习信号有限，从而削弱了整体梯度信号，导致策略更新效率低下，主要集中在已掌握的场景上。我们的整理策略有效地提炼了最有价值的数据。结合我们的反馈机制，这些数据可以针对这些复杂场景进行有针对性的训练。这种方法最终提高了模型性能，并增强了训练效率。

细化过程的可视化

图 5 展示了一个定性示例，其中 ELF-VLA 在复杂的左转场景中纠正了错误的轨迹。最初的错误轨迹（红色曲线）导致了潜在的碰撞，其根源在于对关键障碍物的严重错误估计（预测：前方 15.57 米，左侧 8.11 米）。我们的教师模型提供了结构化反馈，准确识别了这个“思维过程”错误，并估计了更准确的位置（前方 11.43 米，左侧 4.11 米）。同时，它提供了可操作的更正，例如对目标横向位置和纵向速度的调整。基于此反馈，模型生成了修正后的轨迹（蓝色曲线）。修正方案中相应的“关键障碍物分析”反映了这种修正的感知，使智能体能够规划一条成功避开障碍物的更安全轨迹。

结论

本文提出了一种名为 ELF-VLA 的框架，用于从失败中显式学习。我们的方法通过一个强大的教师模型增强了 VLA 策略，该教师模型能够生成结构化的诊断报告，并在每次发生故障时识别潜在的故障模式。然后，该策略利用这种显式的、类似人类的反馈来合成一条修正后的、高回报的轨迹。通过将这些修正后的样本重新注入到强化学习 (RL) 训练批次中，ELF-VLA 提供了有针对性的梯度，使该策略能够解决那些无引导探索难以克服的挑战性场景。

该方法的主要局限性在于它依赖于外部教师模型，这本质上限制了学生模型的性能，使其受限于教师的分析能力。此外，所有实验均在 Navsim 基准测试集上进行，这是一个非反应式仿真环境。未来的工作将包括探索不同教师模型的作用，以及在更多样化的数据集上进行闭环评估。

2026-03-07 突破强化学习瓶颈！清华ELF-VLA：通过显式错误学习释放自驾VLA潜能 (CVPR’26)

发表回复取消回复

Categories

Archives

2026-03-07 突破强化学习瓶颈！ 清华ELF-VLA：通过显式错误学习释放自驾VLA潜能 (CVPR’26)

发表回复 取消回复

Categories

Archives

2026-03-07 突破强化学习瓶颈！清华ELF-VLA：通过显式错误学习释放自驾VLA潜能 (CVPR’26)

发表回复取消回复