2025-11-28 闭环训练终于补上了！AD-R1：世界模型端到端闭环强化学习新框架（澳门大学&理想等）

原文链接：https://mp.weixin.qq.com/s/oFP6wRLmJv_HziQ9BPGZqg

世界模型，这个近期让业内又爱又恨的词。它的能力有很多，可以生成数据、可以预训练、可以闭环仿真也可以预测自车轨迹。

十月份中科院和华为引望提出的的DriveVLA-W0，VLA+WM利用7000万数据，通过世界建模的方式预测未来图像，生成密集的自监督信号，促使模型学习驾驶环境的底层动态规律。这个方法验证了自动驾驶模型的data scaling law，一时间引起业内的热情讨论。

纵观最近业内一些公司透露的信息，小米利用世界模型做数据生成和闭环仿真，蔚来和华为宣传基于世界模型量产，理想在ICCV提出「从数据闭环走向训练闭环」。闭环训练这一环现在可以补上了，今天自动驾驶之心分享的这篇工作便是澳门大学联合理想汽车等团队共同提出的AD-R1 – 基于世界模型的闭环端到端强化学习算法。

AD-R1发现了一个很大的问题：强化学习所利用的世界模型中存在根深蒂固的“乐观偏差”。这类模型仅基于安全的专家数据训练，无法预测错误行为的后果。当以不安全轨迹为输入时，它们会幻想出不切实际的安全未来——障碍物消失、道路被忽视——而非预测即将发生的故障。这种“无法想象失败”的特性使其难以成为学习稳健驾驶策略的可靠评估器。

为解决这一问题，澳门大学联合理想汽车等团队提出了一种基于公正世界模型（Impartial World Model）的后训练策略优化框架。核心贡献在于让模型能够如实呈现危险。AD-R1通过一种新颖的数据合成流水线——反事实合成实现这一目标，该流水线系统地生成包含合理碰撞和偏离车道事件的丰富训练样本库。这一转变使模型从被动的场景补全器升级为可靠的预测器，能够严格遵循行为与结果之间的因果联系。随后将该公正世界模型集成到闭环强化学习框架中，使其担任内部评估器的角色。在优化过程中，智能体通过查询评估器“预想”候选行为的结果。通过大量实验（包括在全新的风险预测基准（Risk Foreseeing Benchmark）上的测试），我们证明所提模型在故障预测方面显著优于基线模型。因此，当其作为评估器使用时，能够在复杂仿真场景中大幅减少安全违规事件，这表明教会模型“预想危险”是构建真正安全、智能的自动驾驶智能体的关键一步。

论文标题：AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models
论文链接：https://arxiv.org/abs/2511.20325

一、背景回顾

端到端自动驾驶近年来彻底改变了该领域，但通过模仿学习（IL）训练的策略在实际部署中仍面临重大挑战，例如因分布偏移导致的长尾事件故障。因此，该领域正日益转向通过主动环境交互实现的闭环强化学习，以提升智能体的决策能力。

然而，将强化学习有效应用于自动驾驶的道路充满挑战，其规模化成功仍遥不可及。一个根本障碍源于强化学习智能体的训练环境。传统方法必须依赖外部仿真器，而这些仿真器存在自身局限：图形引擎固有的仿真到现实差距、交通流仿真器缺乏交互性和3D几何感知能力。这些长期存在的问题构成了主要瓶颈，限制了强化学习训练策略在现实世界中的迁移性和有效性，亟需一种范式革新。

受近期生成模型显著成功的启发，我们探索了一种替代方案：学习3D/4D世界模型作为高保真的生成式仿真器。该范式的核心在于模型能够回答关键问题——“如果我采取此行为，会发生什么？”——通过生成整体未来场景，明确建模自车、3D/4D环境与其他智能体之间的动态交互。

尽管这种生成式方法前景广阔，但我们的研究发现这些最先进模型中存在一种系统性且危险的缺陷，我们称之为“乐观偏差”（图1(c)）。当以不安全轨迹为输入时，这些模型拒绝预测必然发生的故障，反而会幻想出不切实际的安全未来。例如，对于朝向行人的轨迹，模型不会预测碰撞，反而可能显示行人完全消失；同样，若指令车辆开上草坪，模型可能预测草地神奇地变为沥青路面。这一现象揭示了因果保真度的根本性缺失——模型主动虚构安全结果，而非预测输入指令对应的危险后果。这使其成为策略学习中极不可靠的评估器。我们通过提出的风险预测基准（RFB）对这种偏差进行了系统性量化。

为此，我们引入了一种即插即用的闭环强化学习框架AD-R1，以提升任何驾驶智能体的安全性。该框架的核心是一个内部评估器，更准确地说是一个高保真仿真引擎，由专门设计的公正世界模型提供支持。该引擎接收智能体的规划轨迹作为输入，在高保真仿真中“预想”其未来后果，并提供密集的、安全关键的反馈。这使智能体能够在安全的离线环境中从大量想象的错误中学习，有效优化策略以规避潜在故障。

然而，该框架的成功依赖于能够如实呈现危险的世界模型。因此，我们的核心技术贡献是构建公正世界模型（IWM），该模型经过训练，能够真实反映安全与不安全行为的结果。我们通过反事实合成（Counterfactual Synthesis）从根源上解决乐观偏差，从而构建公正世界模型。该数据流水线将现实世界驾驶日志视为可编辑场景，通过编程生成包含物理一致性和因果保真度的自车轨迹库，涵盖各类合理故障。为进一步强化因果保真度，我们引入了模型层面的优化机制，包括轨迹感知门控模块（Trajectory-Aware Gating）和自车轨迹保真度损失（Ego-Trajectory Fidelity Loss），确保模型预测始终忠实于指令轨迹——即使该轨迹会导致危险后果。

由此产生的公正世界模型随后被集成作为强化学习评估器的核心。其逼真模拟负面结果的能力，为奖励建模带来了更高的颗粒度和物理接地性。我们不再依赖简单的启发式规则，而是直接从预测的4D占用率中构建精确、多维度的奖励信号。这使我们不仅能严厉惩罚碰撞、偏离车道等明显故障，还能约束诸如违反时空缓冲区、忽视垂直净空限制等细微的不安全行为，为策略优化提供丰富且可靠的信号。

本文的主要贡献如下：

提出AD-R1，全新的强化学习框架，能够直接在完整的4D时空域中实现策略优化。该框架利用生成式占用世界模型作为高保真“预想引擎”，使智能体能够从大量想象的故障中安全学习——这是现实世界自动驾驶的关键能力。
为实现这一目标，我们首次对世界模型中的“乐观偏差”进行了系统性诊断，并构建了风险预测基准（RFB）——首个用于严格量化模型预测灾难性故障能力的基准，为该领域提供了关键新工具。
我们的解决方案是公正世界模型（IWM），其设计目标是成为风险的忠实评判者。该模型通过两大协同机制构建：数据层面的反事实合成流水线（用于教授模型丰富的合理故障样本库）；模型层面的优化机制（轨迹感知门控模块、保真度损失）（确保预测始终忠实于智能体的指令）。
在NavSim仿真器上的大量实验表明，AD-R1具有即插即用的有效性，在两个基线模型上实现了规划指标PDSM绝对提升1.7%。

二、AD-R1算法详解

概述与问题公式化

公正占用世界模型

当前最先进的世界模型虽在预测性能上表现出色，但存在前文所述的“乐观偏差”。为解决这一问题，我们构建了基于占用率的预测模型，旨在捕捉驾驶场景复杂的3D几何特征与4D时空动态；更关键的是，该模型从根本上设计为克服“乐观偏差”。下文将先概述其骨干架构，再详细介绍数据层面与模型层面的协同优化方案。

backbone

反事实数据合成

模型层面优化

基于未来预测的强化学习

训练范式

三、实验结果分析

实验设置

本文提出的公正世界模型（IWM）基于混合数据集训练。安全驾驶场景的主要数据来源为nuScenes数据集，该数据集提供了丰富的传感器数据与标注信息；同时，我们通过反事实合成（Counterfactual Synthesis）流水线生成故障场景数据，对基础数据集进行扩充。实验采用的数据集比例为80%的真实nuScenes数据与20%的合成反事实数据——该比例通过实证验证确定，既能提供充足的故障样本以修正乐观偏差，又不会显著偏离真实驾驶动态的模型先验。

在最终驾驶策略的闭环评估中，我们采用官方NavSim基准——这是一个标准化的评估环境。实验从两个维度展开评估：一是世界模型的保真度，二是优化后驾驶策略的性能。详细的评估指标与实现细节已包含在补充材料中。

定量分析

后训练优化提升安全性与性能：表2呈现了本文的核心实验结果：将本文提出的即插即用优化框架应用于不同基线模型后，所有模型的性能均获得显著提升。无论是基于扩散策略的方法（DiffusionDrive），还是基于视觉-语言注意力（VLA）的方法（Recogdrive），在闭环仿真中其PDMS（规划决策综合指标）得分均实现稳定提升。这表明，通过“想象故障”学习的策略改进，能够有效转化为更安全的实际驾驶行为。此外，安全性的提升并未以牺牲性能为代价：我们的方法使两个智能体的PDMS得分分别实现1.7%和1.1%的绝对提升。

消融实验

核心组件的作用分析：为剖析各提出组件的贡献，我们开展了全面的消融实验，结果如表3所示。实验以基于模仿学习（IL）训练的强基线模型DiffusionDrive为起点，关键发现如下：

定性分析

策略优化的行为可视化：图3对比了智能体在应用AD-R1优化前后的行为差异：左侧为原始智能体的规划轨迹，该轨迹会导致碰撞或偏离车道；右侧为经过AD-R1优化后的智能体轨迹，能够安全规避危险。这一直观对比验证了我们的框架在实际危险场景中的决策修正能力。

故障想象能力的可视化：图4对不同世界模型的预测结果进行了鲜明对比：我们将同一条“偏离车道”的不安全轨迹分别输入标准世界模型[12]与AD-R1的公正世界模型（IWM）。结果显示，标准模型会产生“乐观幻觉”——道路中间的绿化带在预测中消失，虚构出安全行驶场景；而我们的IWM则忠实预测了偏离车道的场景，生成的“想象未来”能提供清晰且正确的惩罚信号。更多可视化结果已包含在补充材料中。

四、结论

强化学习在自动驾驶领域的应用受阻于一个根本缺陷：世界模型存在“乐观偏差”，无法预测失败后的结果。为解决这一问题，我们提出通过反事实合成（Counterfactual Synthesis）训练“公正世界模型（IWM）”——该模型能够忠实预测不安全行为的后果，而非虚构安全场景。

在AD-R1框架中，该公正世界模型作为内部评估器，使智能体能够在安全的离线环境中从“想象故障”中学习，最终大幅减少闭环仿真中的安全违规事件。本文的研究表明，教会模型“想象危险”并非技术局限，而是构建真正安全、智能的自动驾驶智能体的必要前提。

未来研究方向可进一步探索：如何通过无标注数据生成反事实故障样本，以降低对高精度标注的依赖；以及如何将该框架扩展至更复杂的多智能体交互场景，进一步提升自动驾驶在长尾事件中的鲁棒性。

2025-11-28 闭环训练终于补上了！AD-R1：世界模型端到端闭环强化学习新框架（澳门大学&理想等）

发表回复取消回复

Categories

Archives

2025-11-28 闭环训练终于补上了！AD-R1：世界模型端到端闭环强化学习新框架（澳门大学&理想等）

发表回复 取消回复

Categories

Archives

发表回复取消回复