2025-09-15 端到端再进化！用扩散模型和MoE打造会思考的自动驾驶Policy（同济大学）

原文链接：https://mp.weixin.qq.com/s/PPS3lUxYb2HllHXj8kiRvQ

用扩散模型和MoE打造“会思考”的自动驾驶Diffusion Policy

在目前的自动驾驶的各种研究范式中，端到端（End-to-End, E2E）技术直接将原始传感器输入映射为最终的驾驶操作，因为直接跳过了一些人为定义的感知标注以及传统自动驾驶的不同层级之间的信息损失，受到业内青睐。但即使如此，现有的端到端方法仍面临几个比较难的挑战：

驾驶决策的多模态性：其实在很多情况下，驾驶者可以采取多种截然不同但同样合理的操作，比如选择超车还是减速让行。
长时间范围内的时序稳定性：即使是微小的预测误差，在长时规划中也可能逐步累积，导致最终轨迹出现危险偏差。
持续适应能力：鲁棒的策略需要能够适应新环境，同时避免“灾难性遗忘”。

现在多数基于卷积网络或循环网络的模仿学习的方法可以直接实现从感知到控制的端到端，但它们在处理多模态分布时表现不足，往往生成较为平均化的动作，从而导致驾驶行为不安全或犹豫不决。强化学习方法虽能在不确定性下探索并优化策略，但对数据需求极高、训练过程不稳定，并且难以扩展到真实道路的高安全性场景中。

最近，大模型在自动驾驶领域也逐渐崭露头角，像视觉-语言模型（VLM）和视觉-语言-动作模型（VLA）已经在理解场景、语义关联和泛化能力上有了不错的表现。不过，这类模型在实际连续控制场景中还受一些限制，比如推理速度慢、动作不够连贯，以及安全性保障难度大。

与此同时，扩散模型（Diffusion Models）正在改变视觉、音频和控制领域的生成式建模方式。和传统的回归或分类方法不同，扩散策略（Diffusion Policy, DP）把动作生成看作一个“逐步去噪”的过程，不仅能更好地表达多种可能的驾驶选择，还能保持轨迹的时序一致性和训练的稳定性。不过，这类方法在自动驾驶中还没被系统化研究过。扩散策略通过直接建模输出动作空间，为生成平滑可靠的驾驶轨迹提供了一种更强大、更灵活的思路，非常适合解决驾驶决策中的多样性和长期稳定性问题。

另一方面，专家混合（MoE, Mixture of Experts）技术也逐渐成为大模型的重要架构。它通过按需激活少量专家，让模型在保持计算效率的同时具备更强的扩展性和模块化能力。MoE 在自动驾驶中也被尝试应用，比如做多任务策略和模块化预测，但大多数设计还是面向具体任务，限制了专家的复用性，也没能把专家真正作为可以灵活组合的驾驶知识组件。

为了突破这些限制，我们提出了 KDP (Knowledge-Driven Diffusion Policy) ——一个结合专家路由机制的知识驱动型端到端自动驾驶策略。它把扩散模型和 MoE 的优点结合起来：扩散模型保证生成轨迹时的多样性和稳定性；MoE 则将专家组织成结构化的“知识单元”，每个专家掌握某类驾驶能力，比如纵向控制、交互处理、横向规划等，能根据不同场景灵活组合。不像传统以任务为中心的设计，这个框架更注重知识的灵活复用和组合，从而衍生出新策略。实验结果也证明了它在多样性、稳定性和泛化性上的优势。

论文题目: A Knowledge-Driven Diffusion Policy for End-to-End Autonomous Driving Based on Expert Routing
论文链接：https://arxiv.org/pdf/2509.04853

本文的主要贡献总结如下：

知识驱动的端到端驾驶框架：将 MoE 中的专家重新建模为抽象驾驶知识单元，实现超越任务中心的模块化组合式策略学习。
扩散建模与专家路由的结合：通过扩散策略与 MoE 的结合，在确保长时一致性的同时，实现通过模块化和知识复用应对多种驾驶场景。
全面的实证验证：在多样化的驾驶场景中验证了该方法的有效性，在安全性、泛化能力和效率方面均优于现有基线。

相关工作回顾

端到端自动驾驶

早期的端到端自动驾驶其实就是模仿学习，将传感器观测直接映射为控制命令，尤其是基于卷积网络的模型（见图 1(a)）。尽管这些确定性架构在简单场景下表现有效，但它们会将多模态驾驶行为压缩为平均预测，从而导致驾驶操作犹豫不决或存在安全隐患。强化学习方法也能够在不确定性下优化长期目标，但它们训练数据需求过高，训练过程不稳定，且在真实道路等高安全性环境中的可扩展性有限。

为了应对这些挑战，近几年的研究开始引入 Transformer 来做时序建模。它们能够更好地捕捉驾驶中的时间依赖，还能把来自不同传感器的数据融合到一起，在一个统一的框架下完成感知、预测和规划（见图 1(b)）。这类模型确实在时空信息融合和场景理解上有进步，但依然是确定性的，只会预测一条未来轨迹，没办法体现驾驶决策的多样性，也很难在长时间的动作规划中保证轨迹的连贯和稳定。

最近，有不少研究开始探索生成式 AI 在自动驾驶里的潜力。像视觉-语言模型（VLM）和视觉-语言-动作模型（VLA），已经被用来做交通场景推理和语义对齐，展示了不错的可解释性和泛化能力。不过，它们还不太适合闭环控制，因为推理速度慢、动作衔接不够流畅，也很难保证连续操作的安全性。在这种背景下，扩散策略（见图 1(c)）成为一种更系统的生成式方案，可以显式建模驾驶动作的多样性，同时保证时序一致性。

自动系统中的扩散模型

扩散模型这两年在生成式建模领域很火，它的训练过程稳定、优化目标清晰，而且能自然表达多模态分布。相比 VAE 或 GAN，扩散模型不会出现后验崩溃或训练不稳定的问题，还能生成多样且高质量的样本。这些特点特别适合需要长期规划和稳健控制的智能体，因为模型需要在复杂的输入下处理不确定性，同时生成流畅、连贯的动作。

基于此，扩散策略（Diffusion Policy, DP）被引入到机器人控制领域。DP 把动作序列的生成看作一个“条件去噪”的过程，可以很好地表示多模态行为，同时保证轨迹的时序稳定。实验也证明了 DP 在操控和运动控制任务中比传统的模仿学习和强化学习方法更鲁棒、更稳定。它把轨迹生成问题转变成了生成式建模问题，为处理多样性、时序相关和不确定性等问题提供了系统化的思路。

在这个方向上的最新研究也开始探索如何将扩散模型应用到自动驾驶，比如通过截断扩散调度、级联解码器和分类器引导等技术来提升轨迹生成的效率和多样性。这些研究虽然展示了扩散模型在规划上的潜力，但多数还是单一大模型方案，主要优化采样速度，对模块化设计、适应性和知识组织这些更大的挑战涉及不多。这也推动了研究者将扩散建模和专家路由机制结合起来，让模型不仅能生成稳定多样的决策，还能支持持续学习和驾驶知识的迁移。

生成式人工智能中的专家混合（MoE）

专家混合（MoE）最初是为了把复杂的函数拆成多个专门的子模型，通过一个“门控”机制动态选择哪些专家参与计算。现在，MoE 已经是大模型领域很重要的架构之一。它可以在保持计算效率的前提下，让模型容量变大，还能让不同专家专注不同的任务或数据分布，这种模块化设计对复杂任务非常有帮助。

在生成式 AI 中，MoE 的成功案例不少。比如一些超大语言模型（像 DeepSeek-v3）就用 MoE 扩展到万亿级参数，还能保持训练和推理的效率。视觉和多模态模型也在用 MoE，比如图像生成、文生图扩散等任务，让专家专门负责不同风格或不同模态。这说明 MoE 是一种在生成式建模中实现多样性和模块化的通用机制。

除了 NLP 和视觉，MoE 也逐渐用在机器人和自动驾驶等智能体领域，比如用来做多任务学习和技能拆分，帮助模型迁移和持续学习。不过，现在的自动驾驶研究里，MoE 还大多是按任务划分专家模块，而不是放在一个生成式策略的框架下。要用 MoE 来构建抽象的驾驶知识模块，还很少有人研究。这也是我们提出把 MoE 融入扩散策略的原因，目标是打造一个真正面向端到端自动驾驶的知识驱动策略框架。

方法论

框架概述

我们的方法整体结构如图 2 所示。它采用端到端的思路，直接把驾驶环境的观测结果生成控制动作，整个过程是一个“生成式决策”流程。输入的信息非常全面，包括自车的状态、LiDAR 点云和高层导航指令，这些为策略生成提供了完整的环境理解。

核心部分是一个基于扩散模型的策略网络。它的工作方式是从随机噪声开始，在场景信息的引导下，一步步“去噪”，最终生成平滑连贯的动作轨迹。通过观测和动作特征之间的注意力机制，模型能捕捉驾驶中的时序关系，并支持在同一个场景下输出多种合理的操作方案，让驾驶行为更加灵活。

为了提升模块化和适应能力，我们还加入了 MoE 模块。它通过一个 Top-K 路由器，根据当前场景动态选择少量专家参与预测。这些专家可以看作是“知识模块”，每个专家掌握不同的驾驶技巧，比如路口通过、环岛驾驶或适应陌生路段。结合扩散策略和这种结构化的专家设计，整个框架能在复杂、动态的交通环境中保持动作的稳定性和模型的灵活适应性。

问题表述

驾驶的扩散策略

生成式策略公式化

动作序列的前向扩散

作为驾驶策略的反向去噪过程

训练目标

基于 MoE 的知识路由

将 MoE 集成进扩散策略

路由机制

带有路由约束的训练目标

实验与结论

实验设置 (Experimental Setup)

我们在基于 MetaDrive 搭建的仿真环境中评估我们的方法，该平台支持灵活配置道路结构和交通流量。图 5 展示了三个具有代表性且具有挑战性的场景，从简单到复杂依次为：匝道（In Ramp）、十字路口（Intersection）和环岛（Roundabout）。

In Ramp 场景包含一条长 150 米的主干道和一段 50 米的合流段，用于测试车辆在变道插入时的纵向协同能力。
Intersection 场景为一个无信号灯的六车道交叉口，交互区长 50 米。
Roundabout 场景由三条车道组成，入口段长 50 米，外径为 70 米，测试复杂的多车导航能力。

为了最大化交互效果，交通车辆由 IDM 和 MOBIL 模型控制，并在自车接近时动态触发，参数随机化。

性能评估

模型规模研究

为了评估模型容量对驾驶性能的影响，我们设计了四种策略变体，通过调整嵌入维度、注意力头数和 Transformer 层数来区分规模，分别命名为 Small、Medium、Large 和 Giant。表 II 给出了各模型参数量。

图6结果显示，模型越大在三种驾驶场景中的成功率整体越高，但提升并非单调递增，容量过大后收益趋于饱和。

此外，推理时间与模型规模成正比（如表3所示），Giant 模型（1.56亿参数）推理延迟约 81.6ms，但仍在自动驾驶实时要求范围内，因此选择 Giant 模型作为后续实验的主力。

与基线模型对比

我们将方法与三种自动驾驶主要范式的代表模型进行对比：

基于强化学习的 PPO-Lag
基于规则的 RPID (Rotation Projection IDM)
基于模仿学习 IBC (Implicit Behavior Cloning)

三种场景下的对比结果见表 IV：

在 In Ramp 场景，我们的模型成功率 100%，零碰撞，表现优于所有基线；
在更复杂的 Intersection 场景，成功率 94%，明显超过其他模型；
在高交互的 Roundabout 场景中，成功率 90%，同样领先基线。

结果表明，本方法在安全性、平稳性和驾驶效率方面全面优于现有方案。

消融实验

为了验证提出的设计组件的有效性，我们进行了详细的消融实验。

去除 MoE 路由器：
我们首先将 MoE 路由器替换为一个简单的均匀专家激活方案，每个专家始终启用相同的权重。实验结果显示，在三个场景中的成功率均下降了约 6%，并且轨迹的平滑性指标明显降低。这表明，基于场景动态选择专家对于捕捉驾驶任务中的多样化需求至关重要。
移除知识正则化：
去掉互信息正则项后，路由器的激活分布变得极不均衡，超过 80% 的推理计算集中在两个专家上。虽然模型在训练集上的表现仍保持较好水平，但在未见过的场景下性能明显下降。这证明知识正则化有助于维持专家间的负载均衡和知识的模块化。
减少扩散步数：
我们将扩散去噪迭代从 100 步减少到 20 步，推理时间缩短了约 4 倍，但成功率下降了 3%，轨迹平滑性指标也略有恶化。这说明在自动驾驶这样的高精度任务中，足够的扩散步数对于生成高质量轨迹是必要的。

专家激活分析

为了分析 MoE 模块是否捕捉到可复用和场景特定的驾驶知识，我们研究了闭环运行中的专家激活概率，从两个角度展开：时间维度的激活模式和场景层级的专精与复用。激活概率定义为在 Top-K 路由选择后分配给每个专家的归一化权重。

时间激活模式：
图 8 展示了专家激活在驾驶过程中呈现出稀疏且阶段性的特点。激活峰值往往与驾驶任务关键阶段吻合。在 In Ramp 场景中，Expert 3 在整个合流过程中被频繁激活，用于纵向控制和车距保持。在 Intersection 场景中，Expert 1 和 Expert 5 在车辆进入交互区时激活明显增强，反映了与交互决策相关的能力。在 Roundabout 场景中，Expert 6 在入口和出口处显著激活，而 Expert 3 的激活较低，这与场景中横向控制需求和减少跟车动作的需求相符。这些激活模式表明路由器能够根据驾驶任务的不同阶段动态调用知识。

场景层级的专精与复用：
图 9 总结了完整回合中的激活数据，展示了非均匀但非排他的激活分布。一些专家表现出强烈的场景专精倾向，例如 In Ramp 中的 Expert 3、Intersection 中的 Expert 5、Roundabout 中的 Expert 6 和 Expert 8。而 Expert 1 和 Expert 4 在多场景中频繁复用。该结果说明策略能够灵活组合基础驾驶技能，同时保留少量高度专精的专家，用于解决复杂和罕见的驾驶场景。

案例分析

我们选择了四个典型的闭环驾驶案例（见图 10），来展示模型在不同交通交互场景下的表现：

匝道合流（Ramp Merging with Cut-in）：
车辆在卡车加塞前成功预判，并平稳减速保持安全间距，展现了稳定的纵向控制能力。
无保护左转（Intersection: Unprotected Left Turn）：
车辆在交叉口平稳减速，等待安全间隙后顺利完成左转，轨迹平滑自然。
直行交互（Intersection: Straight-through）：
面对多车高速抢行，模型动态调整策略，确保安全通行。
环岛三出口（Roundabout: Third Exit）：
车辆精准控制横向位置和角度，顺利在高复杂度的环岛中选择正确出口。

多场景评估

为了验证策略的泛化能力，我们设计了一条长距离连续驾驶路线，其中包含多种驾驶元素，如弯道、十字路口、T 型路口、匝道和环岛等复杂场景。结果显示，策略在未做额外调优的情况下，能够在各种路况中平稳运行。这表明稀疏专家路由机制具备较强的环境适应性和知识组合能力。

结论

我们提出了一种新的端到端自动驾驶方法，把扩散模型的“会生成”能力和 MoE 的“专家模块化”结合了起来。简单来说，扩散模型负责通过条件去噪一步步生成动作序列，自然就能处理驾驶过程中的多样化决策和时序依赖；而 MoE 路由器则把不同的专家组织成驾驶知识模块，可以灵活组合，实现策略的模块化和知识迁移。

在标准驾驶测试中，这个方法在成功率、轨迹平滑性和泛化能力上都比现有方法更好，而且还能接近实时运行。更有意思的是，从可解释性分析看，不同专家逐渐进化成了和具体驾驶技能对应的知识模块，为后续的持续学习和策略自适应打下了基础。

接下来，我们计划探索层次化的专家结构、更紧密结合世界模型来做长期规划，并在真实驾驶数据上进行更大规模的验证。

2025-09-15 端到端再进化！用扩散模型和MoE打造会思考的自动驾驶Policy（同济大学）

发表回复取消回复

Categories

Archives

2025-09-15 端到端再进化！用扩散模型和MoE打造会思考的自动驾驶Policy（同济大学）

发表回复 取消回复

Categories

Archives

发表回复取消回复