2025-04-30 爆拉Hydra-MDP++！ARTEMIS：混合专家模型MoE问鼎端到端轨迹规划SOTA

原文链接：https://mp.weixin.qq.com/s/FVczrOhLUqRvr8RqQLRjMQ

本文提出了 ARTEMIS，这是一种结合自回归轨迹规划与专家混合（Mixture-of-Experts, MoE）的端到端自动驾驶框架。传统的模块化方法存在误差传播问题，而现有的端到端模型通常采用静态的一次性推理范式，难以捕捉环境的动态变化。ARTEMIS 通过按顺序生成轨迹航点的方法，保留了关键的时间依赖性，同时将场景特定的查询动态路由到专门的专家网络。这种方法有效缓解了引导信息模糊时遇到的轨迹质量退化问题，并克服了单一网络架构在处理多样化驾驶场景时固有的表示能力限制。此外，我们还使用了一种轻量级的批量重分配策略，显著提高了专家混合模型的训练速度。通过在 NAVSIM 数据集上的实验，ARTEMIS 展示了优越的竞争性能，在 ResNet-34 主干网络下实现了 87.0 PDMS 和 83.1 EPDMS，表现出SOTA性能。

论文链接：https://arxiv.org/abs/2504.19580

文章简介

自动驾驶在过去几十年中经历了快速发展。传统的模块化方法将自动驾驶任务划分为诸如感知、预测和规划等离散模块。然而，这些模块之间的累计误差和复杂的相互依赖关系可能会受到预定义接口的限制。端到端模型通过直接将原始传感器数据映射到计划轨迹或控制信号来克服这些问题。

然而，它们静态的一次性推理范式通常无法捕捉环境的动态变化（图 1(a)）。相比之下，自回归方法按顺序生成轨迹，保留了时间一致性，并允许根据先前计划的片段进行适应性决策。自回归模型已广泛应用于轨迹预测领域。最近的研究已经开始探索统一框架，该框架通过自回归建模方法同时完成世界模型构建和完整或部分轨迹规划任务。

然而，目前的问题是单网络端到端模型仍然难以充分捕捉和适应多样化的驾驶场景。为了解决轨迹规划中的固有复杂性，研究人员越来越多地采用诸如专家混合（Mixture of Experts, MoE）框架等复杂架构。

MoE 利用多个专业专家网络以及智能路由机制，动态分配和处理输入——这一策略在大规模语言模型中取得了显著成功。在自动驾驶中，端到端模型生成的规划轨迹本质上包含了多种潜在的行为模式，反映了驾驶行为的根本不确定性。驾驶员可以在相同环境条件下选择几种合理的未来行动（图 1(b)) ，而传统单网络架构难以准确表征这种内在的行为多样性。相反，MoE 使得专家模块能够专注于特定的驾驶场景或行为模式，从而在不依赖预定义指导信号的情况下学习驾驶行为的特征分布。

这种内生多模态建模方法有效地避免了当指导信息偏离实际情况时可能出现的轨迹质量退化问题。最近，扩散模型（图 1(c))向自动驾驶引入了新颖的生成建模范式，展示了增强的轨迹多样性。尽管这些方法在端到端自动驾驶中建立了最先进的性能，但它们通常采用静态范式，同时生成所有轨迹点（或通过多次去噪迭代），限制了它们准确捕捉轨迹发展的动态演化特征的能力。

相比之下，利用 MoE 的自回归方法展示了优越的时间序列捕捉能力、环境适应性和实用性，因为它们可以在不需要强先验约束的情况下运行。为了解决这些问题，我们提出了 ARTEMIS，即自回归端到端轨迹规划与专家混合在自动驾驶中的应用，如图 2 所示。ARTEMIS 包括三个主要组件：感知模块、具有 MOE 的自回归规划模块和轨迹优化模块。

感知模块采用 Transfuser，利用单独的骨干网络处理图像和 LiDAR 数据，最终将其融合成 BEV 特征表示。具有 MOE 的自回归规划模块通过顺序决策过程逐步生成轨迹航点，同时动态选择最适合当前驾驶场景的专家网络。此外，它还基于专家激活模式实施批量重新分配。最后，轨迹优化模块处理并优化自回归轨迹输出。我们使用 NAVSIM 数据集对 ARTEMIS 进行了全面评估。我们的贡献可总结如下：

(1) 据我们所知，本文首次将专家混合（MoE）引入端到端自动驾驶，在动态路由机制和专业化专家网络划分的帮助下，有效缓解了传统方法在指导信息模糊时遇到的轨迹质量退化问题，以及单一网络架构在处理多样化驾驶场景时固有的表示能力限制。
(2) 我们提出了一种自回归端到端规划方法，该方法通过迭代决策过程逐步构建轨迹，实现轨迹航点之间强时间依赖性的精确建模。
(3) 我们的方法在大规模真实世界的 NAVSIM 数据集上取得了显著结果。使用相同的 ResNet-34 主干网络，我们的方法在标准指标下达到 87.0 PDMS，在扩展评估指标下达到 83.1 EPDMS。

ARTEMIS算法详解

A. 预备知识

1) 端到端自动驾驶

2) 专家混合（Mixture of Experts, MoE）

B. 模型架构

1) 感知模块

2) 带有专家混合的自回归规划模块

与传统的一次性方法不同，本研究采用自回归策略逐步构建轨迹，同时集成专家混合（Mixture-of-Experts, MoE）架构。这种设计结合了先前轨迹信息以及基于场景特征动态选择的专业专家网络。

位置和时间嵌入

自回归生成

批次重分配 MoE

3) 轨迹优化模块

4) 训练损失

实验结果分析

A. 数据集

我们在 NAVSIM 数据集上进行训练和测试。NAVSIM 从 OpenScene 数据集中选取了具有挑战性的场景，排除了简单的驾驶情境。训练集包含 1192 个场景，测试集包含 136 个场景。数据集中的每个样本包括来自 8 个视角的相机图像、融合自 5 个传感器的 LiDAR 数据、地图标注信息以及 3D 目标边界框等其他数据。

在 NAVSIM 数据集中，模型需要使用 4 帧（共 2 秒）的历史与当前数据来规划一个由未来 8 帧组成的 4 秒轨迹。

B. 评估指标

已有众多研究表明，仅通过简单的开环评估不足以全面衡量模型性能，而闭环评估由于计算成本高昂及仿真器与真实世界存在差异，应用受到限制。NAVSIM 提供了一种介于两者之间的评估方案，即预测驾驶模型评分（Predictive Driving Model Score, PDMS），该评分与闭环指标高度相关。PDMS 基于五个指标计算：无碰撞（No-Collision, NC）、可行驶区域合规性（Drivable Area Compliance, DAC）、碰撞时间（Time-to-Collision, TTC）、舒适度（Comfort, C）和自车进展（Ego Progress, EP）。

除了 PDMS，NAVSIM 还提供了一个扩展基准——扩展预测驾驶模型评分（Extended Predictive Driving Model Score, EPDMS）。该扩展评分引入两个新的加权指标（车道保持 LK 和扩展舒适度 EC）、两个新的乘法指标（行驶方向合规性 DDC 和交通灯合规性 TLC），以及一个误报惩罚机制。

C. 实现细节

我们采用 Transfuser作为感知网络，以 ResNet-34 作为特征提取主干。感知模块输入包括前左、前、前右摄像头拼接的图像，以及覆盖 64m × 64m 区域的点云数据。

在集成 MoE 的自回归规划模块中，我们配置了 E_private = 5 个领域特定专家和 E_shared = 1 个共享专家。在前向传播过程中，选择得分最高的 K = 2 个专家进行激活。

模型在 navtrain 分割上使用两块 A100 GPU 进行训练，批量大小为 128。初始学习率为 2×10⁻⁴，权重衰减为 1×10⁻⁴。模型执行 8 次自回归步骤，每步输出一个轨迹点（x, y 和航向）。所有自回归步骤完成后，生成的轨迹将被优化为 2Hz 的 4 秒规划轨迹。

在感知模块训练阶段，损失权重系数 λ_sem、λ_class 和 λ_box 分别设置为 10、10 和 5。在端到端训练阶段，权重系数 λ_sem、λ_class、λ_box、λ_traj、λ_var 和 λ_NLL 分别设置为 2、2、1、15、0.01 和 0.5。

D. 主要实验结果

定量结果

在 Navtest 基准上，我们将 ARTEMIS 与多个最先进的方法进行了对比，结果总结在表 I 中。使用 ResNet-34 主干时，ARTEMIS 在 navtest 分割上达到了 87.0 PDMS，在大多数模型中表现出竞争力。值得注意的是，ARTEMIS 在 EP、NC 和 C 指标上显著优于其他方法，表明其强大的轨迹规划能力和环境适应能力。

我们进一步在 Navtest 基准上使用扩展指标对 ARTEMIS 进行了评估（见表 II）。结果显示，在使用同样 ResNet-34 主干的情况下，我们的方法显著优于所有基线模型，达到最先进的性能（SOTA）。特别是，我们的方法在 TTC 和 EP 等关键指标上明显优于其他方法，这些结果突出了 ARTEMIS 在多种评估标准下的鲁棒性和优越性能。

定性结果

图 5 展示了从 navtest 数据集中采样的四个代表性驾驶场景，用于定性评估所提出的方法。为了突出不同专家对同一场景的响应，每个领域特定专家生成的轨迹用不同颜色绘制。

第一个例子（图 5a）展示了自车通过交叉路口的情景，专家行为分为左转或直行两种情况。经过路由网络融合处理后的轨迹优先选择了橙色专家的直线路径。

图 5b 中，当自车接近 T 形路口时，黄色专家选择右转，而其余专家选择继续直行。经过路由网络融合处理后的轨迹则融合了黄色专家的结果。

图 5c 和图 5d 展示了另外两个场景：绕行环岛和车道入口选择。在图 5c 中，除红色专家外，其他专家错误地选择向右前方行驶，而红色专家成功捕捉到了环岛道路特征并正确绕行。最终的规划轨迹主要参考了红色专家的解决方案，体现了内在路由机制的有效性和合理性。车道入口选择场景的可视化（图 5d）也清晰地展示了不同专家在当前上下文中对不同入口车道位置的偏好。

此外，我们还在不同场景下对 ARTEMIS 和 Transfuser 的轨迹规划性能进行了视觉对比，结果如图 6 所示。

E. 消融实验

组件影响分析

为了评估每个架构组件的贡献，我们构建了三个变体模型，分别移除了以下组件：

自回归规划模块 + MoE（AME）
MoE 模块本身（MoE）
轨迹优化模块（TR）

结果总结在表 III 中，显示移除任何单一组件都会导致性能下降，确认了这三部分的必要性。具体来说，移除自回归模块使 PDMS 下降 3.0 分，说明自回归范式对于捕捉航点之间的时间依赖性和准确应对变化的环境背景至关重要。

移除 MoE 模块会导致 PDMS 下降 4.1 分，强调了 MoE 架构在动态适应多样化驾驶场景和行为模式方面的优势。最后，移除级联优化模块会使 PDMS 下降 2.3 分，表明该阶段有效缓解了自回归轨迹生成过程中的采样不稳定性。

路由网络有效性验证

为了验证内置路由机制的有效性，我们将其与显式的驾驶命令引导策略进行了比较。实验结果（见表 IV）显示，内置路由机制在显式引导偏离实际场景时能有效避免对领域特定专家的不当分配。

级联优化层数的影响

表 V 报告了优化层数对模型性能的影响。增加级联深度最多提升两层效果，超过此数后性能趋于饱和。

领域特定专家数量的影响

表 VI 探索了专家数量变化的影响。将专家数量从 3 个增加到 5 个逐步提升了模型性能，表明增强了处理复杂场景的能力。然而，扩展到 10 个专家时性能下降 1.5 分，表明在有限训练数据下，过多专家会分散资源并导致功能重叠。

批次重分配对训练速度的影响

为了评估批次重分配的贡献，我们在不同批量大小下比较了有无该策略的训练速度。如表 VII 所示，在相同硬件条件下，批次重分配显著加快了训练速度，随着批量大小从 64 增加到 256，每秒处理的训练样本从 19.2 提升到 43.5。尽管重分配引入了一些额外开销，但相对于专家网络计算而言微不足道，并且被并行效率的提升所抵消。

结论

本文提出了 ARTEMIS —— 一种结合自回归端到端轨迹规划与专家混合（Mixture-of-Experts, MoE）的自动驾驶框架。不同于传统一次性静态范式合成完整轨迹的方法，ARTEMIS 实现了顺序决策过程，从而能够对轨迹演化进行建模。

通过集成具有专用路由网络的专家混合架构，ARTEMIS 动态捕捉驾驶行为的内在动态特性，并有效适应多样化的驾驶环境。在 NAVSIM 基准上进行的大量定量评估表明，ARTEMIS 表现出高度竞争力的性能。鉴于其灵活性和适应性，该框架在复杂场景中展现出巨大的部署潜力，并为未来自动驾驶研究确立了一个有前景的方向。

2025-04-30 爆拉Hydra-MDP++！ARTEMIS：混合专家模型MoE问鼎端到端轨迹规划SOTA

组件影响分析

发表回复取消回复

Categories

Archives

2025-04-30 爆拉Hydra-MDP++！ARTEMIS：混合专家模型MoE问鼎端到端轨迹规划SOTA

组件影响分析

发表回复 取消回复

Categories

Archives

发表回复取消回复