Ultralytics ha presentado YOLO26, una nueva familia de modelos de visión por computador en tiempo real diseñada para resolver varias limitaciones persistentes en la saga YOLO: la dependencia de la supresión de no máximos (NMS) durante la inferencia, el peso de las cabezas de detección asociadas a Distribution Focal Loss (DFL), los largos calendarios de entrenamiento y la falta de asignaciones de etiquetas positivas para los objetos más pequeños. El modelo adopta un diseño de doble cabeza que permite una inferencia nativa sin NMS de extremo a extremo y elimina DFL por completo, lo que reduce el tamaño de la cabeza de detección y elimina restricciones en el rango de regresión.
El pipeline de entrenamiento combina tres innovaciones: MuSGD, un optimizador híbrido que adapta Muon al entrenamiento de grandes modelos de lenguaje; Progressive Loss, que traslada la supervisión hacia la cabeza usada en inferencia; y STAL, una estrategia de asignación de etiquetas que garantiza cobertura positiva para objetos pequeños. Además de detección, YOLO26 incorpora cabezas y pérdidas específicas para segmentación de instancias, estimación de pose y detección orientada a oblicuos.
La familia abarca cinco escalas (n, s, m, l y x) y cubre detección, segmentación, pose, clasificación y detección orientada en un único pipeline. Incluye también una extensión de vocabulario abierto, YOLOE-26, preparada para inferencia con texto, pistas visuales o sin prompt. En pruebas sobre COCO, YOLO26 alcanza entre 40,9 y 57,5 mAP con latencias de 1,7 a 11,8 ms en T4 con TensorRT, mejorando la frontera precisión-latencia frente a detectores en tiempo real anteriores. YOLOE-26x llega a 40,6 AP en LVIS minival con prompt textual. El código y los pesos están disponibles en el repositorio de GitHub de Ultralytics.
