原文链接:https://mp.weixin.qq.com/s/LU-W2nzSWCr6oHS-2EqZHg
端到端自动驾驶需要能够自适应且鲁棒地处理复杂多样的交通环境。然而,当前主流的单模态规划方法试图学习一个整体策略,却难以获得多样化的驾驶技能来应对各种场景。因此本文提出了GEMINUS,一种基于专家混合(Mixture-of-Experts, MoE)的端到端自动驾驶框架,该框架包含一个全局专家(Global Expert)、一个场景自适应专家组(Scene-Adaptive Experts Group),并配备了一个双感知路由器(Dual-aware Router)。具体而言,全局专家在整体数据集上进行训练,具备稳健的性能;场景自适应专家则在相应的场景子集上进行训练,以实现自适应性能。双感知路由器同时考虑场景级特征和路由不确定性,从而动态激活专家模块。通过双感知路由器对全局专家和场景自适应专家组进行有效耦合,GEMINUS在多样化场景下实现了自适应与鲁棒性兼具的性能。
GEMINUS在Bench2Drive闭环基准测试中超越了现有方法,在驾驶评分(Driving Score)和成功率(Success Rate)上均达到了最先进水平,即使仅使用单目视觉输入。此外,消融研究表明,相较于原始的单专家基线模型,GEMINUS在驾驶评分上提升了7.67%,在成功率上提升了22.06%,在MultiAbility-Mean上提升了19.41%。代码将发布于:https://github.com/newbrains1/GEMINUS。
- 论文链接:https://arxiv.org/abs/2507.14456
- 代码链接:https://github.com/newbrains1/GEMINUS
简介
近年来,自动驾驶领域的一个突出研究方向是端到端。与由感知、预测和规划等模块化流水线组成的传统自动驾驶系统不同,端到端方法直接将原始传感器输入映射为规划轨迹、控制信号,或由轨迹分支和控制分支融合输出的结果。这些方法为驾驶提供了一个整体模型,能够朝着全局目标进行统一优化,显著减少了人工工程的工作量,并允许直接利用丰富的传感器信息。
尽管具有显著优势,但当前端到端自动驾驶模型存在一个持续性的局限,即它们在整个训练数据集上进行全局模仿学习。这种通常采用L2损失的单模态规划方法,本质上将复杂的输出空间建模为单一高斯分布,导致倾向于模态平均(mode averaging)。因此,其性能受到损害,因为生成的输出代表了跨多种场景的平均行为,而非针对当前特定场景的最优策略。这最终限制了模型获取多样化驾驶技能以应对不同场景的能力。
先前的方法采用了基于指令的条件模仿学习来缓解模态平均问题。然而,这种方法存在一个固有的局限性:仅依赖驾驶指令不足以区分复杂场景(例如,一个超车场景可能同时包含左转、直行和右转指令)。这种僵化的分类未能全面考虑丰富的场景信息,从而阻碍了驾驶技能多样性的捕捉。
受专家混合(Mixture-of-Experts, MoE)架构在大型语言模型(LLMs)中成功处理复杂数据分布的启发,MoE架构在解决自动驾驶领域的挑战方面展现出巨大潜力。通过提供细粒度的场景适应性和专门的行为生成,MoE可以缓解模态平均问题,并增强模型在多样化驾驶场景中的适应能力。然而将主要为静态文本数据设计的通用MoE架构直接迁移至自动驾驶领域,暴露出其内在的不适用性。具体来说,由于缺乏明确的场景划分,它们难以实现有效的专家专业化;并且未能充分考虑自动驾驶所需的鲁棒性要求。
因此本文提出了GEMINUS:一种用于端到端自动驾驶的dual-aware全局与场景自适应专家混合框架(dual-aware Global and scEne-adaptive MIxture of experts for end-to-end autoNomoUS driving)。具体而言,全局专家在整体数据集上进行训练,具备稳健的性能;场景自适应专家在对应的场景子集上进行训练,以实现自适应性能;双感知路由器同时考虑场景级特征和路由不确定性,从而动态激活专家模块。通过双感知路由器对全局专家和场景自适应专家组进行有效耦合,GEMINUS能够在多样化场景下同时实现自适应和鲁棒的性能。本文的贡献可总结如下:
- 提出了一种新颖的专家混合(MoE)端到端自动驾驶框架GEMINUS。该框架通过双感知路由器有效地整合了全局专家和场景自适应专家组,旨在在特征明显的场景中实现自适应性能,在特征模糊的场景中实现鲁棒性能。
- 为端到端自动驾驶引入了一种双感知路由器,其独特设计兼具场景感知(scenario-awareness)以识别不同场景间的差异,以及不确定性感知(uncertainty-awareness)以建模路由不确定性。
- 为了进一步探究GEMINUS的内在路由机制,我们分析了不确定性阈值对驾驶性能的影响,并在验证集上考察了路由器的准确率和专家利用率。
相关工作回顾
端到端自动驾驶
端到端自动驾驶是一种全新的智能驾驶算法范式。它直接将原始传感器输入映射为车辆控制指令或规划轨迹。这种方法通过简化系统架构并减轻级联模块化流水线固有的误差传播问题,提供了显著的优势。
端到端驾驶策略主要通过模仿学习(Imitation Learning, IL)进行训练。这通常包括行为克隆(Behavior Cloning, BC),即模仿专家演示以捕捉类人驾驶行为。强化学习(Reinforcement Learning, RL)也扮演着重要角色,它通过环境交互和奖励设计来实现动态策略优化。
2019年CILRS被提出,通过引入条件模仿学习来获取控制信号。轨迹引导控制预测(Trajectory-guided Control Prediction, TCP)是一种简单而稳健的单目视觉基线方法。该方法创新性地将轨迹规划和直接控制集成到一个统一的流水线中,以实现联合学习和预测融合。
此外,一些技术如TransFuser采用Transformer架构来融合异构传感器(视觉和激光雷达)的信息。另外,DriveAdapter利用学生模型从多相机信息中学习丰富的环境表征,旨在克服感知与规划之间的传统耦合障碍。除了融合,近期的创新还包括向量化场景表征,例如VAD,它将驾驶场景建模为完全向量化的元素,以提高规划效率和鲁棒性。Hydra-MDP通过蒸馏人类和基于规则的教师的知识来探索多模态规划,生成多样化的轨迹候选。扩散模型也已成为一种强大的工具,DiffusionDrive利用截断的扩散策略对多模态动作分布进行建模,同时实现了实时控制。
尽管取得了这些进展,现有的端到端模型仍受限于模态平均(mode averaging)问题,难以有效应对多样化场景。
自动驾驶中的专家混合模型
专家混合(Mixture-of-Experts, MoE)架构已成为扩展大型语言模型(LLMs)和增强任务专门化的重要方法。在大型语言模型中,稀疏MoE设计通过条件计算提升了模型容量和处理效率。MoE的优势在于能够利用各个专家在不同数据子集或任务上的优势,从而提升整体模型性能。在中,任务级MoE被应用于多语言翻译,根据语言或任务标识符智能路由输入,从而实现了性能提升和推理吞吐量的改善。
尽管MoE在大型语言模型中取得了有希望的结果,但其在端到端自动驾驶领域的应用仍未得到充分探索。一些现有研究已探索了MoE架构在自动驾驶中的应用,例如用于罕见场景感知、长尾轨迹预测、不同天气下的域自适应、安全轨迹预测与规划,以及促进规划器的泛化能力。
然而,这些现有方法并未专注于利用MoE来增强在多样化场景下的自适应和鲁棒性能。
算法详解
图1展示了GEMINUS的整体架构。该框架以TCP的某些设计理念为基础,首先建立了一个单专家基线模型。在此基础上,我们将其与双感知MoE(Dual-aware MoE)相结合,最终形成了GEMINUS端到端自动驾驶框架。

预备知识

单专家基线模型

场景感知路由机制
朴素的MoE(Vanilla MoE)旨在平衡专家在GPU上的负载,以最大化利用输入特征的优势。然而,当处理异构输入分布时,这会导致专家之间知识共享效率低下。例如,汇入(Merging)场景的驾驶策略与紧急制动(Emergency Brake)场景的策略显著不同。为了解决这种低效性并促进专业知识的形成,我们引入了一种场景感知路由机制。该机制借鉴了文献中的数据集感知路由思想。


不确定性感知路由机制

损失函数设计


实验结果分析
实验设置

与SOTA对比
如表I所示,GEMINUS在Bench2Drive闭环基准测试中,在驾驶评分(Driving Score)和成功率(Success Rate)上均达到了最先进水平。值得注意的是,GEMINUS仅依赖单目视觉输入,却超越了Bench2Drive基准中使用6相机图像输入的现有方法。
尽管GEMINUS在开环平均L2误差上并未表现出更优越的性能,但此类指标主要反映模型的收敛性,而无法可靠地评估实际驾驶能力。这一点已在先前的研究(如TransFuser++和Bench2Drive)中得到强调。相比之下,闭环指标能够对实际驾驶能力提供更稳健的评估。
当仅聚焦于单目视觉方法时,GEMINUS相较于现有的单目视觉最先进方法——TCP-traj*,取得了显著提升。GEMINUS的驾驶评分提高了9.17%,成功率提高了25.77%,开环平均L2误差降低了5.88%。此外,如表II所示,多能力均值(MultiAbility-Mean)提升了10.37%。

消融研究
如表III所示,消融研究揭示了GEMINUS各个组件的关键贡献。
- 比较VanillaMoE-E2E与SingleExpert-E2E。 显然,直接将通常用于大型语言模型(LLMs)的通用MoE框架引入自动驾驶领域,并不能提升模型性能。在没有特定适应的情况下,它甚至导致驾驶评分和成功率略有下降。这证实了我们的假设:端到端自动驾驶系统需要一种更定制化的MoE框架,以专门应对真实世界驾驶场景的多样性和复杂性。
- 比较ScenarioMoE-E2E与SingleExpert-E2E。 场景感知路由机制全面提升了模型性能。驾驶评分提升了2.72%,成功率提升了4.40%,多能力均值提升了8.95%。该机制的引入不仅增强了模型在多样化场景中的自适应性能,也使其路由逻辑更具可解释性。
- 比较GEMINUS与ScenarioMoE-E2E。 进一步整合不确定性感知路由机制和全局专家带来了额外的性能增益。驾驶评分提升了4.83%,成功率提升了22.06%,多能力均值提升了19.41%。不确定性感知路由机制和全局专家的集成显著增强了模型的鲁棒性和稳定性,尤其是在路由器无法自信地判断当前状况的模糊场景中。

不确定性阈值分析

路由器准确率与专家利用率
为了更好地理解GEMINUS框架的内在路由动态,我们在Bench2Drive的开环验证集上进行了分析。该分析重点关注开环评估期间的两个关键方面:路由器预测准确率和专家利用率。路由器预测准确率被定义为路由器正确识别对应场景的样本比例。专家利用率指全局专家和五个场景自适应专家的激活率。
- 路由器准确率。 如表IV所示,路由器的整体场景预测准确率达到了68.06%。值得注意的是,交通标志子集与汇入和紧急制动子集存在重叠。在这种情况下,单个样本可能涉及多个场景,因此实际的预测准确率可能更高。这表明场景感知路由在大多数情况下能准确判断当前场景。然而,它在少数场景中的准确预测仍存在困难。对五个验证集场景的进一步检查发现,在超车和交通标志场景中,路由器表现出最高的预测准确率,这主要是因为这些场景具有显著的视觉线索(如障碍物或交通标志),极大地增强了路由器准确预测场景的能力。相比之下,让行场景的预测准确率最低,仅为2.89%。这种差异源于两个主要因素:首先,让行子集仅占训练集的3.16%和验证集的4.00%,这在官方的Bench2Drive数据集中构成了固有的数据不平衡问题;其次,GEMINUS依赖单目视觉输入,这限制了其在让行场景中检测后方来车的能力,从而阻碍了准确的场景预测。
- 专家利用率。 如表V所示,“总体”一栏显示全局专家的利用率为6.29%。这表明GEMINUS在大多数情况下优先路由至场景自适应专家,以利用它们的场景特异性能力。全局专家主要在高度模糊的场景中被调用,以确保鲁棒和稳定的性能。此外,将表V中“全局专家”一行的数据与表IV中的路由器准确率进行对比分析,可以观察到一个清晰的模态:在路由器预测准确率较高的场景(如超车1.09%和交通标志6.04%)中,全局专家的利用率最小;相反,在三个路由器预测准确率较低的场景中,模型表现出更高的全局专家利用率,这有助于维持鲁棒性和稳定性能。

结论
本文提出了GEMINUS,一种专为端到端自动驾驶量身定制的全新双感知专家混合(Dual-aware MoE)框架。通过双感知智能路由器将全局专家与场景自适应专家组进行有效耦合,GEMINUS在特征明显的场景中实现了自适应性能,在特征模糊的场景中实现了鲁棒性能。
在Bench2Drive基准上进行的闭环评估表明,GEMINUS超越了现有方法,并仅依靠单目视觉输入就在驾驶评分(Driving Score)和成功率(Success Rate)上达到了最先进水平。此外,消融研究证明了其相较于原始单专家基线模型的显著提升:驾驶评分提升了7.67%,成功率提升了22.06%,多能力均值(MultiAbility-Mean)提升了19.41%。同时本文分析了不确定性阈值对模型性能的影响以确定其最优值。此外对路由器准确率和专家利用率的深入分析揭示了GEMINUS内部的路由机制。
本研究受限于使用单目相机输入。为了使路由器能够更全面地考虑场景信息,探索采用多相机输入的双感知路由是未来研究的一个有前景的方向。此外,一个值得探索的研究方向是用低秩自适应(LoRA)模块替代GEMINUS中的专家网络,从而构建一个“LoRA混合”(Mixture-of-LoRA)架构,以实现更优的参数效率和更灵活的模型微调。
参考
[1]GEMINUS: Dual-aware Global and Scene-Adaptive Mixture-of-Experts for End-to-End Autonomous Driving

发表回复