原文链接:https://mp.weixin.qq.com/s/1uVri8KLDckGnZVLBiNlwA
端到端自动驾驶已成为一个重要且快速发展的研究领域。通过大规模数据集学习类人驾驶策略具有相当大的潜力。但是在多模态性能以及长尾场景,没有可持续解决问题的框架。如果仅依赖强化学习来加强,那么reward hack又成为了棘手的问题,很难写出一个全面的reward可以适用连续轨迹复杂的三维空间。所以近年来大语言模型的泛化能力突破让大家看到了希望,是否能够利用模型scaling以及数据scaling去激发模型的泛化性能,也就是vla模型的兴起。
大家都想利用上vlm的泛化能力,用更少的数据去解决few shot/zero shot的场景。下面是对于目前自动驾驶方案vla方案的痛点分析:
- 常见的vla结构,例如diffvla[1],由一个vlm模型输出决策和驾驶指导,作为条件输入给diffusion生成轨迹,这样语义决策、驾驶指导和动作模块就被分割成了两个系统,多个系统的结果不能保证一致性,存在脑裂问题。
- 目前的模仿学习安全性不能得到保证,例如碰撞,强化学习也只是尝试教会模型因果关系,但很难平衡好效率和安全。Diffusion planner[2] 也需要求解reward 梯度对轨迹进行指导修正,而这个梯度在复杂场景下也较难计算准确。
- 现在vla的难点是在于算力限制,直接输出traj(token数过多)耗时太长,所以一般会再接一个单独的traj decoder,从vlm传递出一个隐特征给到traj decoder,可以是diffusion或者一个小的ar模型。但是一旦增加traj decoder就涉及中间传递信息不足的问题,pi0.5也提出了深层信息交互的思路,但是实际效果提升有限。也可以是WALL-OSS[3]的思路,将action FFN分开,加快decoder的速度,从而实现更加高效的AR。不过这些都是基于AR,生成效率仍是主要问题。
基于上面的描述,可以看出目前迫切需要做到的是L模态和A模态的融合,一种更容易scaling的统一的架构,同时还要做到高效生成。为应对这些挑战,理想和清华的团队提出ReflectDrive——一种新型学习框架,通过离散扩散的反思机制实现安全轨迹生成。我们首先将二维驾驶空间离散化以构建动作代码本,从而能够通过微调将预训练扩散语言模型用于规划任务。该框架的核心是安全感知的反思机制,无需梯度计算即可实现迭代自校正,我们的灵感来源于时空联合规划迭代式搜索的思路,将优化的过程变成了离散扩散模型:首先生成目标条件轨迹以建模多模态驾驶行为,随后基于局部搜索方法识别不安全标记并确定可行解,这些解将作为基于修复式再生成的安全锚点。在NAVSIM基准测试中,ReflectDrive展现出显著的安全关键轨迹生成优势,为自动驾驶系统提供了可扩展且可靠的解决方案。
- 论文链接:https://arxiv.org/pdf/2509.20109
- Github链接:https://github.com/pixeli99/ReflectDrive
一、引言
自动驾驶正引领交通行业迈向更安全、更高效的未来。在这一趋势下,端到端(E2E)系统已成为传统模块化设计的主流替代方案——传统模块化设计在相互依赖的模块间易产生误差累积;同时,端到端系统也在很大程度上取代了基于规则的方法,这类方法往往需要大量人力工程投入。与此同时,视觉-语言-动作(VLA)模型通过融合视觉-语言模型(VLM)的预训练知识,提供了一种新的解决方案。凭借更强的泛化能力,VLA模型能够理解视觉场景和人类指令,并直接输出规划轨迹,从而提升在复杂场景中的适应性。
然而,现有基于学习的方法并未解决基于模仿学习的驾驶系统中的核心难题。具体而言,行为克隆无法自然编码不可违背的物理规则,例如避撞或保持在可行驶区域内。这导致模型生成的轨迹可能在其概率分布内具有较高可能性,却仍违反关键安全约束。因此,现有已部署的解决方案通常依赖大量人类先验知识,例如轨迹锚点或基于规则生成的路径。这些先验知识为学习系统提供了可靠的初始解,但也需要大量后处理操作,尤其是在复杂场景中。
与此同时,更先进的解决方案也在不断涌现。部分方法将强化学习与人工设计的奖励函数相结合,以增强因果推理能力。然而,大多数现有研究仍局限于仿真层面。从部署角度来看,这些方法通常需要进行具有安全风险的在线rollouts,并且存在训练不稳定性问题,在大规模模型中该问题尤为突出。尽管扩散模型中的引导机制通过在推理阶段实现可控生成,提供了一种颇具潜力的替代方案,但这类方法往往因梯度计算导致采样速度缓慢,且对参数调优高度敏感,易引发数值不稳定性。
为解决上述挑战,我们率先将离散扩散应用于规划任务,以满足可验证、可控制的端到端驾驶系统需求。该方法的核心优势在于其在离散动作空间中运行,能够在轨迹生成过程中通过搜索、掩码和采样技术,无缝融入关键安全约束。这形成了一种混合框架:在该框架中,学习到的行为可通过先验知识进行严格引导,从而从“黑箱式规划”转向“可信且可解释的决策”。基于这些见解,我们提出了ReflectDrive——一种新型基于学习的框架,该框架集成反思机制,通过离散扩散实现安全轨迹生成。
具体而言,我们首先对二维驾驶空间进行离散化处理,构建动作码本,从而能够通过离散码本嵌入表示车辆轨迹。这种表示方式使我们能够通过微调,将预训练扩散语言模型(DLM)应用于规划任务。该方法支持在统一架构内进行并行解码和双向特征融合,从而实现可扩展训练。
以该微调模型为基础,我们的反思机制从目标条件生成开始:目标点引导生成过程,以捕捉多样的多模态驾驶行为。此外,该框架还集成安全指标,用于评估生成的多模态轨迹。对于不安全的路径点,我们通过局部搜索确定可行解,该可行解随后将作为轨迹修复的安全锚点令牌。整个过程无需梯度计算,能够在轨迹再生过程中实现并行生成和安全约束注入。
在真实世界自动驾驶基准测试集NAVSIM上的评估结果验证了将离散扩散应用于轨迹生成的可行性。配备反思机制后,ReflectDrive实现了接近人类水平的闭环性能。我们的贡献总结如下:
- 首次将离散扩散应用于端到端自动驾驶轨迹生成,并将其集成到VLA模型中以实现可扩展训练。
- 提出反思机制——一种专为离散扩散去噪过程设计的新型推理阶段引导框架,将外部安全验证与高效离散令牌优化相结合。
- 在真实世界驾驶基准测试集上对该方法进行评估,证明该框架能够在不影响行为连贯性的前提下,强制满足严格的安全约束。
二、预备知识回顾
自动驾驶规划

离散扩散
离散扩散模型已成为生成结构化序列的强大非自回归范式。该过程由前向损坏过程和学习到的反向去噪过程定义。
前向与反向过程

模型推理

三、ReflectDrive算法详解
本节将介绍ReflectDrive——一种新型基于学习的框架,该框架集成反思机制,通过离散扩散实现安全轨迹生成(如图1所示)。首先,我们将介绍一种专为掩码扩散过程设计的轨迹离散化方法;随后,采用预训练扩散语言模型进行轨迹生成;最后,提出一种专为轨迹生成过程安全性设计的反思机制。该机制利用扩散修复技术,并借助离散令牌空间的优势实现高效的基于约束的搜索。
用于自动驾驶规划的离散扩散
轨迹离散化


离散扩散模型

反思推理
以基于离散扩散的VLA模型为基础,我们引入反思推理框架,以弥合模仿学习与安全关键型部署之间的差距。该框架分为两个阶段:目标条件轨迹生成与安全引导再生。整个过程由一组专用评分函数引导。
评分函数定义

目标条件生成

安全引导再生



四、实验结果分析
基准与基线
评测设置
在我们的实现中,视觉-语言-动作(VLA)模型的骨干网络基于公开可用的预训练视觉-语言模型初始化,并采用无分类器引导(classifier-free guidance)进行轨迹生成。输入图像来自前视、左前视和右前视摄像头;语言指令包含高层导航命令(如“左转”或“直行”)以及自车状态的文本描述。我们在大规模真实世界自动驾驶基准测试集NAVSIM上评估模型的闭环性能。遵循官方协议,性能通过PDMS综合评分(分数越高越好)衡量,该分数由五项指标聚合得到:NC(无碰撞率)、DAC(可行驶区域合规率)、TTC(碰撞时间安全性)、Comfort(舒适性,即加速度/加加速度约束满足度)和EP(自车进度)。所有方法均在官方闭环模拟器中运行,结果为公开测试集上的平均值。除非另有说明,我们的规划器仅使用摄像头输入;同时,我们还纳入了“视觉+激光雷达(Camera+LiDAR)”基线,以提供更全面的对比。
基线方法
我们将ReflectDrive与其他自动驾驶系统进行对比,具体包括:
- 基础端到端规划器:仅以传感器信息为输入并输出轨迹的方法,如UniAD、Para-Drive(、Transfuser。
- 增强端到端规划器:融合聚类结果作为辅助信息的方法,如Hydra-MDP、DiffusionDrive、GoalFlow——这类方法因额外信息的引入,PDMS分数通常高于基础端到端规划器。
- VLA规划器:近期的AutoVLA模型,其在单一自回归生成模型中统一了推理与动作生成,是现有VLA规划器中PDMS分数最高的方法。
在我们的模型系列中,表格列出了以下变体:
- ReflectDrive(w/o R.I.):采用离散掩码扩散训练,推理时使用无分类器引导,但不包含反思推理(Reflective Inference)。
- ReflectDrive(本文方法):包含目标条件生成与安全引导再生,其中安全引导再生依赖“周围障碍物匀速运动”的奖励模型。
- ReflectDrive†:包含目标条件生成与安全引导再生,其中安全引导再生依赖“周围障碍物为真值智能体(ground-truth agents)”的奖励模型。
主要结果
NAVSIM基准测试集上的评估结果如表1所示。

基础模型验证
ReflectDrive基础模型(ReflectDrive(w/o R.I.))的PDMS得分为84.8,与UniAD、PARA-Drive、Hydra-MDP等基础端到端模型相当,略低于增强端到端规划器。我们认为存在两个潜在限制因素:一是训练数据规模有限,二是基础VLM模型的能力仍有提升空间。
反思推理带来的显著提升
安全引导再生机制的引入,使得DAC、TTC、NC等安全指标得到大幅提升——这主要得益于我们的奖励函数设计充分考虑了安全相关因素。在EP(自车进度)指标上,我们通过目标条件生成策略实现了优化。与ReflectDrive(w/o R.I.)相比,DAC提升3.9个百分点,TTC提升1.3个百分点,NC提升0.8个百分点,EP提升7.9个百分点,在确保轨迹安全的同时未牺牲行驶进度。与其他端到端规划器相比,本文方法的DAC指标显著优于同类方法,接近人类水平;而TTC和NC指标未达预期,原因在于使用了“匀速智能体”假设——在安全关键场景中,这种假设可能导致安全评估不准确。因此,为探索ReflectDrive的性能上限,我们在评估中引入了“真值智能体状态”。
接近人类驾驶性能
当使用真值智能体信息(即具备完整环境信息)时,系统性能已接近人类驾驶轨迹水平:例如NC(无碰撞率)达99.7、DAC(可行驶区域合规率)达99.5、TTC(碰撞时间安全性)达99.1,甚至EP(自车进度)达88.9(高于人类水平)——这体现了ReflectDrive的潜在强大能力。与基于“匀速智能体”的ReflectDrive相比,此时DAC提升0.2个百分点,TTC提升5.6个百分点,NC提升2.0个百分点,EP提升2.0个百分点,符合预期。这表明,通过更准确的检测与预测结果(在实际部署中,此类任务由专用模型负责),系统性能可进一步提升。此外,通过图6中的失败案例分析,我们发现了搜索算法的优化空间——随着搜索算法的进一步优化,我们有望实现对人类驾驶性能的全面超越。
定性结果
为进一步验证ReflectDrive的能力,我们展示了典型场景下的轨迹生成结果(如图3所示)。ReflectDrive能够生成高安全性轨迹:初始轨迹存在越界风险,但在反思推理的引导下,轨迹逐步迭代并向安全区域优化,最终生成可行轨迹。值得注意的是,即使经过离散化处理,生成的轨迹仍保持运动学可行性与平滑性——这进一步验证了“将离散扩散用于自动驾驶规划”的可行性。更多有效案例详见图5。

消融实验
推理参数消融
我们对生成与反思过程中的关键可调参数进行了消融实验,结果如图4所示。这些参数包括:
- 生成步数(Generation steps):控制离散扩散模型中轨迹修复的步数;
- 目标点数量(Num. goal points):指选中的目标点数量(即多模态候选的数量);
- 探索步数(Exploration steps):控制候选点的搜索范围(数值越大,修正空间越广);
- 最大迭代次数(Max iterations):指再生过程的最大迭代次数。
对于扩散生成步数,结果显示“性能与步数呈非单调关系”:模型性能在初始阶段随步数增加而提升,在5步时达到峰值,随后步数增加会导致性能下降。此外,我们证明“多模态行为建模”可进一步提升模型性能,并为选择提供更广泛的空间。最后,我们观察到“推理扩展性”现象:分配给探索与再生步骤的计算资源越多,模型推理性能相应提升;这种扩展性的上限可能还取决于所采用的策略,这为未来工作提供了进一步优化的空间。

反思推理的设计选择消融
基于最优参数配置,我们对“目标条件生成”和“安全引导再生”方法进行了消融实验。结果如表2所示:目标条件生成提升了自车进度(EP),而安全引导再生同时改善了安全指标与进度性能。这一发现验证了ReflectDrive方法的互补性——目标条件生成聚焦于进度优化,而安全引导再生在确保安全约束的同时,未牺牲驾驶效率。

五、结论
本文提出了ReflectDrive——一种新型基于学习的框架,该框架集成反思机制,通过离散扩散实现安全轨迹生成。我们将二维驾驶空间离散化为动作码本,使得预训练扩散语言模型可通过微调应用于规划任务。反思机制首先通过目标条件生成捕捉多样的多模态行为,随后通过“无梯度修复”的安全引导再生确定可行解。在NAVSIM基准测试集上的评估结果,验证了本文方法的有效性与安全优势。
六、参考
[1] https://arxiv.org/abs/2505.19381
[2] https://arxiv.org/pdf/2501.15564
[3] https://x2robot.cn-wlcb.ufileos.com/wall_oss.pdf

发表回复