2025-12-19 清华UniMM-V2X：基于MOE的多层次融合端到端V2X框架

原文链接：https://mp.weixin.qq.com/s/NOYVhRCF2ZZYVZy-Yfr_DQ

一、引言

传统的自动驾驶流水线具有模块化结构，面临着误差传递和泛化能力有限的问题。尽管端到端自动驾驶通过将原始传感器数据直接映射到最终控制指令提供了一种解决方案，但这种单体智能系统受限于传感器范围，并且在应对罕见极端事件和预测其他参与者意图方面显得力不从心。因此，车联网（V2X）通信作为一种关键的赋能技术，通过促进实时信息交换，有助于克服这些局限性。

本文介绍的 UniMM-V2X 框架，首次在多智能体端到端系统中实现了感知与预测的多级协同。它不仅打破了感知融合的局限，更引入了 MoE（混合专家模型）架构，为感知、预测和规划动态定制专属特征表征。通过多级融合与 MoE 的深度协同，UniMM-V2X 在感知、预测和规划任务上均达到 SOTA 性能，为实现更安全、更具可解释性的协同自动驾驶提供了全新方案。

核心特点与主要贡献：

首次在多智能体端到端自动驾驶中探索多级协同，实现了跨越感知与预测层面的协作，从而显著提升了复杂场景下决策的可靠性。
在编码器和解码器中均引入了混合专家模型（MoE），增强了模型的灵活性和专业化程度，使其能够适应自动驾驶中多样化的任务和预测需求。
通过大量实验，验证了多级融合与 MoE 架构的结合产生了强大的互补效应，感知准确度提升了39.7%，预测误差降低了7.2%，规划性能提升了33.2%，充分展示了MoE 增强的多级协同范式的实力，促进了更可靠的协作，大幅提升了决策质量。

论文标题：UniMM-V2X: MoE-Enhanced Multi-Level Fusion for End-to-End Cooperative Autonomous Driving
论文链接：https://www.arxiv.org/abs/2511.09013

二、UniMM-V2X：MoE增强的感知预测多层级融合协同驾驶框架

图1 UniMM-V2X 框架概览。

该系统通过整合来自多个智能体的感知层面和预测层面信息增强下游规划。BEV 编码器和motion解码器均配备了 MoE 架构，其中编码器生成为各种下游任务量身定制的任务自适应 BEV 特征，解码器采用不同专家来建模多样的运动模式，从而增强了多级融合的有效性和适应性，以实现更稳健的规划性能。

UniMM-V2X由三个主要部分组成：图像编码器、协同感知模块，以及协同预测与规划模块。图像编码器结合了 MoE 架构以提取任务自适应的 BEV 特征。感知模块负责执行协同检测、跟踪、建图以及占用图的生成。预测与规划模块通过基于 MoE 的解码器生成运动预测，并融合多智能体预测信息以做出规划决策。感知层面与预测层面的融合共同构成了一个统一的多级融合框架，使智能体能够在整个决策过程中实现有效的协作，显著提升了端到端系统在复杂多车环境下的可靠性。

用于自适应特征与运动建模的MoE

图2 MoE 增强型编码器与解码器。

编码器为多样的下游任务（检测、跟踪、建图、运动预测）丰富了 BEV 特征提取过程；而解码器则通过针对特定运动的专家分支（如直行、左转、右转）生成运动查询向量，从而提升规划质量。

感知与预测多层级融合

图3 感知预测多级融合。

(a) 感知级融合通过参考点嵌入引入空间位置先验，并利用基于注意力机制的多智能体动态融合。(b) 预测级融合采用基于锚点的嵌入和动态融合，以支持复杂多智能体环境下的运动推理。

三、实验结果

作者团队在DAIR-V2X数据集上对模型性能进行测试，并与UniAD, VAD, SparseDrive等单智能体端到端自动驾驶模型、Where2comm, CoBEVT等协同感知模型、以及V2VNet, CooperNaut, UniV2X等端到端协同自动驾驶模型进行比较。

规划：UniMM-V2X 实现了最低的平均 L2误差（1.49m），优于包括单智能体和现有协同方法在内的所有基准模型。更重要的是，UniMM-V2X 展现了卓越的安全性，3s平均碰撞率仅为 0.12%。

表1 规划结果对比。

感知：与最先进的单车驾驶方案SparseDrive相比，作者团队在 mAP 上提升了 0.098，在 AMOTA 上提升了 0.297，证明了协作的有效性。与最先进的端到端协同驾驶框架相比，作者团队在不增加感知层额外通信成本的前提下，mAP 提升了 39.7%，AMOTA 提升了 77.2%。

表2 感知结果对比。

预测：UniMM-V2X 取得了最佳性能，minADE 为 0.64m，minFDE 为 0.69m，这些改进为上述最终规划性能的提升做出了重大贡献。

表3 运动预测结果对比。

多层级融合与MoE的作用：感知级融合提升了检测和跟踪性能，但对运动预测和规划的影响有限，这可能是由于感知准确度与规划需求之间存在失配。相比之下，预测级融合通过为遮挡对象提供补充运动线索并修正不确定的轨迹，增强了规划安全性，但由于缺乏早期阶段的协作，其感知性能仍与单智能体基准模型相似。这些结果表明，单层融合不足以优化所有的驾驶任务，多级融合确保了高质量的中间特征在整个框架中传播，从而实现了所有模块的性能提升。在 BEV 编码器中集成 MoE 增强了环境理解能力，提升了单车的感知和规划性能。仅在运动解码器中使用 MoE 带来的收益有限，这可能是由于缺乏足够任务特化的 BEV 特征来支撑准确的运动预测。当 MoE 同时应用于编码器和解码器时，可以取得最佳结果，此时编码器产生任务感知的 BEV 特征，而解码器则利用专家的专业化能力来捕捉复杂的运动行为。

表4 消融实验证明了多层级融合以及MoE设计对驾驶性能提升的有效性。

系统实用性与可靠性：作者团队通过对比通信成本 (BPS) 和推理延迟（FPS）来评估方法的实用性与效率。与消耗大量带宽的 BEV 特征传输方法不同，作者团队在不牺牲规划质量的前提下，将通信成本大幅降低了 87.9 倍。在运行效率方面，UniMM-V2X 达到了 5.4 FPS 的帧率。由于集成了 MoE 架构和多级融合机制，其速度有轻微下降，然而这些微小的成本在规划安全性和可靠性的显著提升面前是完全可以接受的，反映出极佳的成本效益比。

在不同带宽条件下，UniMM-V2X 均表现良好，能够有效利用可用通信带宽进行协同规划，确保了在真实世界自动驾驶场景下的可靠性和可扩展性。

图4 不同通信约束条件下感知和规划的性能表现。

四、结论

UniMM-V2X通过在感知和预测层面进行信息融合，并在 BEV 编码器和运动解码器中集成 MoE模块，实现了更安全、自适应性更高的协同自动驾驶方案。在 DAIR-V2X 基准测试上的广泛评估表明，UniMM-V2X 达到了最佳性能，其检测性能提升了 39.7%，跟踪性能提升了 77.2%，运动预测误差降低了 7.2%，L2 规划误差降低了 33.2%，碰撞率降低了 52.0%。该框架在不同带宽约束下展现出了可靠性，突显了其在现实世界协同驾驶中的实际部署潜力。尽管在通信效率与闭环验证上仍有探索空间，但 UniMM-V2X 无疑为多智能体协同驾驶的未来提供了一条清晰的技术路线。在算力与网络不断进化的今天，这种分级协作、动态适配的端到端框架，或许能够推进全场景自动驾驶未来的实现。

2025-12-19 清华UniMM-V2X：基于MOE的多层次融合端到端V2X框架

发表回复取消回复

Categories

Archives

2025-12-19 清华UniMM-V2X：基于MOE的多层次融合端到端V2X框架

发表回复 取消回复

Categories

Archives

发表回复取消回复