2026-01-17 YOLO26 正式开源！无NMS推理+CPU 性能提升43%，面向边缘视觉AI的新一代YOLO模型

原文链接：https://mp.weixin.qq.com/s/Sum3Y34wa-ZvSG-iKph6tg

刚刚，Ultralytics 正式发布 YOLO26。

该模型最早在 YOLO Vision 2025（YV25）大会上首次亮相，重点围绕真实世界视觉系统中的训练方式、部署效率以及规模化落地能力进行了系统升级。

在伦敦举办的 YV25 大会上，Ultralytics创始人兼首席执行官 Glenn Jocher 分享了这一愿景：“最顶尖的 AI 技术往往被束之高阁，并未对外开放。大型企业掌控着新技术的发展，其他人只能排队等待使用权限。Ultralytics 选择了一条不同的道路，我们希望 AI 能真正掌握在每个人手中。”

“将AI从云端带到真实世界中”

YOLO26 正是围绕这些实际需求进行设计，在 CPU、边缘加速器以及低功耗硬件上实现了兼顾性能与效率的运行表现。

在实现架构与性能升级的同时，YOLO26 仍延续了 YOLO 系列一贯的工程友好特性，能够较为顺畅地融入现有工作流程，支持多类视觉任务。无论是研究团队还是生产团队都能轻松上手。

图 1：YOLO26 的目标检测应用示例

本文将围绕 YOLO26 的核心设计思路，关键技术改进以及其在边缘视觉 AI 场景中的意义展开介绍。

Github已开源： https://github.com/ultralytics/ultralytics

01 YOLO26 的核心优势

与此前的 Ultralytics YOLO 系列一样，YOLO26 依然采用统一的模型家族设计，能够支持多种计算机视觉任务。模型提供五种尺寸选择：Nano（n）、Small（s）、Medium（m）、Large（l）和 Extra Large（x），团队可以根据部署环境，在速度、精度和模型体量之间进行灵活取舍。

在性能层面,YOLO26 进一步提升了性能上限。与 YOLO11 相比，YOLO26 的 Nano 版本在 CPU 推理场景下最高可实现 43% 的性能提升，成为目前边缘端和基于 CPU 部署场景中速度与精度兼顾的领先目标检测模型之一。

图 2. YOLO26 模型效果对比

YOLO26 支持的计算机视觉任务包括：

图像分类：对整张图像进行分析，并归类到指定类别，帮助系统理解场景整体语义。
目标检测：在图像或视频中定位并识别多个目标。
实例分割：能以像素级精度勾勒单个物体轮廓。
姿态估计：识别关键点并估计人体或其他对象的姿态。
旋转框（OBB）检测：支持不同角度目标检测，适用于航拍和卫星影像。
目标跟踪：结合 Ultralytics Python 包，可在视频流中持续跟踪目标。

所有任务在同一框架下支持训练、验证、推理与模型导出。

02 YOLO26 的关键创新

YOLO26 引入了多项核心创新，全面提升了推理速度、训练稳定性和部署便捷性，主要包括：

移除分布焦点损失（DFL）：删除了 DFL 模块，简化了边界框预测过程，提升了硬件兼容性，让模型更易于导出并在边缘设备和低功耗硬件上运行。
端到端无 NMS 推理：YOLO26 原生支持端到端推理，可直接输出最终预测结果，无需依赖非极大值抑制（NMS），减少了推理延迟和部署复杂度。
渐进式损失平衡（ProgLoss）+ 小目标感知标签分配（STAL）：这些优化的损失策略稳定了训练过程，提升了检测精度，尤其针对难以检测的小目标。
MuSGD 优化器：采用全新混合优化器，融合了 SGD 与 Muon 的优化方法，模型训练更加稳定。
CPU 推理速度提升高达 43% ：专为边缘计算优化，YOLO26 的 CPU 推理速度提升高达 43%，可在边缘设备上实现实时性能。

接下来，我们将详细拆解这些下一代特性。

2.1 移除分布焦点损失（DFL），简化预测流程

早期 YOLO 模型在训练过程中使用分布焦点损失（DFL）来提升边界框精度。尽管这一方法有效，但 DFL 增加了模型复杂度，且对回归范围设置了固定限制，给模型导出和部署带来挑战，尤其在边缘设备和低功耗硬件上表现更为明显。

YOLO26 完全移除了 DFL 模块。这一改动消除了早期模型中固定的边界框回归限制，提升了检测超大物体时的可靠性和准确性。

通过简化边界框预测流程，YOLO26 更易于导出，且能在各类边缘设备和低功耗硬件上稳定运行。

2.2 端到端无 NMS 推理

传统目标检测流程依赖非极大值抑制（NMS）作为后处理步骤，用于过滤重叠预测结果。尽管 NMS 效果显著，但它会增加延迟和复杂度，且在多运行时环境和不同硬件目标上部署时容易出现不稳定问题。

YOLO26 引入原生端到端推理模式，模型可直接输出最终预测结果，无需将 NMS 作为独立的后处理步骤。重复预测的过滤的操作在网络内部完成。

移除 NMS 不仅降低了延迟，简化了部署流程，还减少了集成错误的风险，使 YOLO26 特别适合实时部署和边缘部署场景。

2.3 渐进式损失平衡（ProgLoss）+ 小目标感知标签分配（STAL），提升识别能力

训练相关的关键特性是引入了渐进式损失平衡（ProgLoss）和小目标感知标签分配（STAL）。这些优化的损失函数有助于稳定训练过程，提升检测精度。

ProgLoss 让模型在训练过程中学习更稳定，减少了训练波动，使模型收敛更平稳。同时，STAL 则针对小目标进行了优化，改善模型在视觉信息有限情况下的学习效果。

ProgLoss 和 STAL 的结合实现了更可靠的检测效果，尤其在小目标识别方面有显著提升。这一点对于物联网（IoT）、机器人技术和航空影像等边缘应用至关重要，因为在这些场景中，物体往往体积小、距离远或部分可见。

2.4 MuSGD 优化器，实现更稳定的训练

YOLO26 采用了一种新的优化器 MuSGD，用于提升训练的稳定性和效率。MuSGD 将传统随机梯度下降（SGD）的优势，与源自大语言模型训练的 Muon 类优化思想相结合。

SGD 在计算机视觉领域长期被证明具有良好的泛化能力，而近年的大模型训练经验也表明，适当引入新的优化策略可以进一步提升稳定性和效率。MuSGD 将这些理念引入了计算机视觉领域。

受 Moonshot AI 的 Kimi K2 训练经验启发，MuSGD 融入了有助于模型更平稳收敛的优化策略。这使得 YOLO26 能够更快地达到出色性能，同时减少训练不稳定性，尤其在更大规模或更复杂的训练场景中效果显著。

MuSGD 让 YOLO26 在不同模型尺寸下的训练都更具可预测性，既提升了性能，又增强了训练稳定性。

2.5 CPU 推理速度提升高达 43%

随着 Vision AI 不断向数据产生端靠近，边缘性能的重要性持续提升。YOLO26 针对边缘计算场景进行了深度优化，在无 GPU 的条件下，CPU 推理速度最高提升可达 43%。

这一能力使实时视觉系统能够直接运行在摄像头、机器人和嵌入式硬件上，满足低延迟、高可靠性和成本受限的实际需求。

2.6 对视觉任务进一步优化

除了提升目标检测精度的架构改进外，YOLO26 还包含针对特定任务的优化，旨在全面提升各类计算机视觉任务的性能。

实例分割：YOLO26 使用语义分割损失改进模型的训练学习过程，从而生成更准确、更一致的实例掩码。升级后的原型模块支持利用多尺度信息，使模型在复杂场景中也能有效处理不同尺寸的物体。
姿态估计：集成 Residual Log-Likelihood Estimation（RLE），更好地建模关键点预测的不确定性，同时优化解码流程，实现更高精度与实时性。
旋转边界框检测：新增角度损失函数，帮助模型更准确地学习物体旋转角度，尤其适用于方向模糊的方形物体。优化后的 OBB 解码过程减少了旋转边界附近角度预测的突变，实现了更稳定、一致的方向估计。

图 3. YOLO26 的实例分割应用示例

03 YOLOE-26：基于 YOLO26 的开放词汇分割模型

Ultralytics 同时推出了 YOLOE-26系列：一个基于 YOLO26 架构和训练策略的开放词汇分割模型。

YOLOE-26 并非全新任务或功能，而是一个专用模型家族，它复用了现有的分割任务，同时支持文本提示、视觉提示和无提示推理。该模型家族涵盖所有标准 YOLO 尺寸，相比早期开放词汇分割模型，YOLOE-26 的精度更高，实际应用性能更可靠。

04 支持多平台、多硬件的实际部署

在实际应用中，YOLO26 可轻松部署在各类硬件上。通过 Ultralytics 提供的 Python 工具及相关集成能力，模型可以导出为面向不同平台和硬件加速器的推理格式。

例如，导出为 TensorRT 格式可在 NVIDIA GPU 上实现高性能推理，CoreML 格式支持苹果设备原生部署，OpenVINO 则能优化英特尔硬件的运行性能。YOLO26 还可导出至多款专用边缘加速器，在专业边缘 AI 硬件上实现高吞吐量、高能效比的推理。

05 各行业计算机视觉场景应用

YOLO26 以实际部署为核心设计目标，可应用于多类行业场景，包括：

机器人：导航、障碍物检测与交互
制造业：缺陷检测、流程监控
无人机与航空影像：航拍分析、测绘与勘测
嵌入式与 IoT：智能摄像头、本地视觉处理
智慧城市：交通监控、公共安全与基础设施管理

图 4：YOLO26 的典型应用场景

06 快速上手 YOLO26

YOLO26 提供两种主要使用方式，既支持平台化使用，也可通过开源流程进行集成。

开发者可基于 Python 工作流完成模型加载、推理与导出，并部署至 ONNX、TensorRT、CoreML、OpenVINO 等常见运行环境。

ip install ultralytics

from ultralytics import YOLO  

# 加载COCO预训练的YOLO26n模型  
model = YOLO("yolo26n.pt")  

# 使用YOLO26n模型对'bus.jpg'图像进行推理  
results = model("path/to/bus.jpg")

完整的使用指南和教程可以在Ultralytics 官方文档中查看（https://docs.ultralytics.com/）

总结

小编认为，YOLO26 并不是单纯追求参数或榜单成绩的升级，而是把重心放在了模型如何真正跑起来这件事上，以及能不能稳定地跑在真实设备上。无论是推理流程的简化、训练稳定性的增强，还是对 CPU 和边缘场景的针对性优化，都指向一个目标：让视觉模型更容易进入真实系统。对于需要在不同硬件条件下构建视觉系统的开发者来说，这种以落地为导向的改进，提供了更多可操作的空间。

2026-01-17 YOLO26 正式开源！无NMS推理+CPU 性能提升43%，面向边缘视觉AI的新一代YOLO模型

YOLO26 支持的计算机视觉任务包括：

发表回复取消回复

Categories

Archives

2026-01-17 YOLO26 正式开源！无NMS推理+CPU 性能提升43%，面向边缘视觉AI的新一代YOLO模型

YOLO26 支持的计算机视觉任务包括：

发表回复 取消回复

Categories

Archives

发表回复取消回复