10 Jun 2026 · De la redacción

Xiaomi MiMo-V2.5-Pro-UltraSpeed: el primer modelo de un billón de parámetros que cruza la barrera de los 1000 tokens por segundo

Fuentes: Xiaomi MiMo-V2.5-Pro-UltraSpeed: el primer modelo de un billón de parámetros que cruza la barrera de los 1000 tokens por segundo

Xiaomi ha presentado MiMo-V2.5-Pro-UltraSpeed, una variante de su modelo MoE de 1,02 billones de parámetros (42B activos) capaz de generar hasta ~1200 tokens por segundo sobre un único nodo de 8 GPUs comerciales. El hito no es solo una cifra de marketing: es la primera vez que un modelo de escala trillón rompe la barrera del millar de tokens/s sin recurrir a hardware especializado tipo wafer-scale (Cerebras) o SRAM on-chip (Groq). El anuncio se ha publicado el 8 de junio de 2026 en el blog oficial de Xiaomi MiMo, en colaboración con TileRT, un equipo de arquitectura de sistemas enfocado a inferencia de latencia ultrabaja.

Por qué importa

La velocidad de inferencia a esta escala cambia el tipo de problemas que un modelo puede abordar. En el comunicado, Xiaomi lo resume en tres ejes:

Velocidad como inteligencia. Dentro del mismo wall-clock, un modelo a 1000 tps puede correr docenas de caminos de razonamiento en paralelo (Best-of-N, tree search) y autocorregirse en background, usando velocidad bruta para ganar profundidad de razonamiento.
Agents de coding sin pausas. A 1000 tps, escribir código deja de ser una espera dolorosa y se convierte en iteración instantánea.
Loops de decisión en tiempo real. Trading cuantitativo de alta frecuencia, antifraude, bidding publicitario en tiempo real e, incluso, asistencia quirúrgica y análisis de imagen médica, entran por primera vez al territorio del "responde mientras piensas".

Ficha técnica

Parámetros totales: 1,02 billones (MoE).
Parámetros activos por token: 42 mil millones.
Contexto: hasta 1 millón de tokens (longitud nativa de secuencia de 32k).
Precisión de inferencia: FP4 (MXFP4) selectivo en los experts MoE; resto del modelo en precisión original; cuantización con QAT (Quantization-Aware Training).
Speculative decoding: DFlash (predicción paralela enmascarada por bloques, tamaño 8), optimizado con el optimizador de segundo orden Muon y self-distillation.
Sistema de inferencia: TileRT, con Persistent Engine Kernel y Warp Specialization.
Hardware objetivo: un único nodo commodity de 8 GPUs (sin hardware exótico).
Velocidad: 1000+ tokens/s sostenidos, hasta ~1200 tps en pico.

El codesign modelo-sistema: las tres palancas

FP4 selectivo en experts MoE

Cuantizar un modelo de 1T a 4 bits "a lo bruto" degrada razonamiento, lógica y código. Xiaomi aprovecha que la arquitectura MoE de MiMo-V2.5-Pro tiene los experts como inmensa mayoría de parámetros y, a la vez, como la parte más tolerante a la cuantización. El equipo aplica MXFP4 únicamente a los experts MoE y deja el resto del modelo en precisión original. El resultado, según Xiaomi, es mantener "esencialmente" las capacidades del modelo base, mientras se libera el bandwidth de memoria que era el cuello de botella a escala trillón. La especificación de formato que referencian es la OCP Microscaling Formats (MX) v1.0.

DFlash speculative decoding

El speculative decoding clásico enfrenta un trade-off incómodo: un draft model pequeño acepta pocos tokens; uno grande, cuesta demasiado. DFlash, descrito en arXiv (2602.06036), rompe el esquema: en lugar de generar token a token, el draft rellena un bloque entero de posiciones enmascaradas en un único forward pass. Xiaomi lo despliega sobre MiMo-V2.5-Pro con optimizaciones para escala trillón y contexto largo: Sliding Window Attention (SWA) en el draft, alineado con el diseño SWA de la serie V2; muestreo de señales de máscara empujado a shards locales de GPU para generar decenas de miles de señales de entrenamiento independientes por paso; y tamaño de bloque limitado a 8 para maximizar concurrencia.

Los acceptance lengths que reporta Xiaomi son los que justifican el salto:

Coding: 6,30 (máx. 7,14) — 6-7 de cada 8 tokens borrador aceptados.
Math/Reasoning: 5,56.
Agent: 4,29.

TileRT: el motor de inferencia persistente

A frecuencias de 1000 tps, cada operador vive microsegundos. TileRT sustituye el patrón clásico de "lanzar operador, esperar, sincronizar" por un Persistent Engine Kernel que mantiene el pipeline completo residente en la GPU, con prefetching continuo y solapamiento total entre datos y cómputo. La Warp Specialization descompone comunicación, movimiento de datos y cómputo tensorial en dominios heterogéneos, eliminando las pausas entre kernels. Xiaomi y TileRT cierran el círculo con un codesign microsegundo a microsegundo: el modelo adopta la mezcla FP4 en MoE Experts y DFlash alineado con SWA, y el sistema se compila y ajusta a esos patrones. Sin optimización puntual, por muy buena que sea, sale el 1000 tps; con codesign, sale inevitablemente.

Benchmarks: dónde se coloca el Pro (base del UltraSpeed)

La página del modelo en Hugging Face (XiaomiMiMo/MiMo-V2.5-Pro) ofrece la comparativa más clara frente a sus rivales más directos. El MiMo-V2.5-Pro base, sin post-training, ya pelea de tú a tú con DeepSeek-V4-Pro y Kimi-K2 en razonamiento, matemática y código:

Categoría	Benchmark	MiMo-V2.5-Pro Base	DeepSeek-V4-Pro Base	Kimi-K2 Base
General	MMLU (5-shot)	89,4	90,1	87,8
General	MMLU-Pro (5-shot)	68,5	73,5	69,2
General	GPQA-Diamond (5-shot)	66,7	—	48,1
Math	GSM8K (8-shot)	99,6	92,6	92,1
Math	MATH (4-shot)	86,2	64,5	70,2
Math	AIME 24&25 (2-shot)	37,3	—	31,6
Code	HumanEval+ (1-shot)	75,6	—	84,8
Code	LiveCodeBench v6 (1-shot)	39,6	—	26,3
Agent	SWE-Bench (AgentLess, 3-shot)	35,7	—	—

Activados / totales: MiMo 42B/1.02T · DeepSeek-V4-Pro 49B/1.6T · Kimi-K2 32B/1.04T.

Tres observaciones rápidas:

En matemática y razonamiento científico, MiMo-V2.5-Pro manda. La brecha en MATH (86,2 vs 64,5 de DeepSeek) y AIME (37,3 vs 31,6 de Kimi) es demasiado grande para ser ruido.
En código agentic (SWE-Bench, LiveCodeBench), también. Es el único modelo del cuadro con resultado reportable en SWE-Bench AgentLess.
MMLU-Pro se le resiste (68,5 vs 73,5 de DeepSeek), coherente con un modelo optimizado para razonamiento profundo más que para knowledge retrieval amplio.

El UltraSpeed hereda el post-training del Pro (SFT + agentic RL a gran escala + Multi-Teacher On-Policy Distillation), así que las cifras deberían trasladarse — el UltraSpeed no es un downtier, es el mismo modelo corriendo 10× más rápido.

Open source: qué hay y qué falta

Aquí la cosa se separa en dos:

MiMo-V2.5-Pro (base + instruct) y MiMo-V2.5-Pro-Base son open-weight en Hugging Face, con pesos FP8 (E4M3) Mixed, contexto 1M (instruct) / 256K (base), MoE 1.02T/42B. La página HF reporta ~73.700 descargas en el último mes: tracción real, no vaporware.
MiMo-V2.5-Pro-FP4-DFlash — el checkpoint específico con cuantización FP4 y DFlash que alimenta al UltraSpeed — está también open-source en huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash, según el blog oficial. Esto permite a cualquiera con 8 GPUs reproducir las optimizaciones de inferencia.
MiMo-V2.5-Pro-UltraSpeed como tal (la versión servida por el stack de TileRT en producción) es API-only durante la ventana de prueba. El blog oficial promete "UltraSpeed support for MiMo-V2.5 is on the way", así que es cuestión de tiempo que ese wrapper también se abra.

Disponibilidad y precio

Acceso: API en platform.xiaomimimo.com/ultraspeed y chat gratuito (durante el trial) en ultraspeed.xiaomimimo.com.
Ventana: 9 a 23 de junio de 2026, 23:59 hora Beijing (UTC+8).
Tipo de acceso: por solicitud, con cupos limitados. Prioridad a empresas y desarrolladores profesionales con uso real. API only — el Token Plan no soporta UltraSpeed.
Precio: 3× el coste de MiMo-V2.5-Pro por ~10× la velocidad de generación. (El plan general de MiMo-V2.5 ya bajó precios hasta un 99% en mayo, según el anuncio del 26 de mayo que generó 134 puntos en HN.)
Cuotas durante el trial: 10 entradas a la cola por cuenta y día, sesiones de 30 min máx, liberación automática tras 5 min de inactividad.
Contacto enterprise: business-mimo@xiaomi.com.

Contexto: la race to zero china

Es difícil leer este anuncio sin enmarcarlo en la dinámica que el propio hilo de HN sobre la bajada de precios dejó explícita el mes pasado: "First DeepSeek, now Xiaomi. A price cut of 99%… This is why Anthropic wants these Chinese AI models banned as they are in the lead in the AI race to zero." Las reacciones de usuarios reportando uso real (planes ampliados automáticamente de 500M a 38B tokens/mes al mismo precio) muestran que la presión sobre la frontera de coste ya está afectando al uso, no solo a las hojas de ruta.

El UltraSpeed no es solo "más tokens por segundo"; es la pieza que faltaba para que un modelo 1T abierto pueda usarse en flujos agentic y de tiempo real sin tener que recurrir a APIs cerradas occidentales. Si Xiaomi mantiene la apertura de los pesos y empuja el UltraSpeed a self-hosting en hardware commodity, el listón de "qué se puede hacer con un modelo abierto a 1000 tps" lo acaba de subir.

Fuentes

Xiaomi MiMo (blog oficial) — MiMo-V2.5-Pro-UltraSpeed: Pushing 1T-Parameter Model Generation Speed to 1000 TPS, 8 de junio de 2026. https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
Hugging Face — XiaomiMiMo/MiMo-V2.5-Pro (ficha del modelo, benchmarks y descargas). https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro
Hugging Face — XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash (checkpoint open-source con FP4 + DFlash). https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
TileRT — Breaking 1000 TPS (post técnico del sistema de inferencia). https://tilert.ai/blog/breaking-1000-tps.html
DFlash (paper) — arXiv 2602.06036.
OCP — Microscaling Formats (MX) v1.0 Spec (formato MXFP4).
Hacker News — hilo de anuncio de la bajada de precios de la serie v2.5, 26 de mayo de 2026. https://news.ycombinator.com/item?id=48282814

Temas

ia desarrollo seguridad

Entidades mencionadas

MiMo-V2.5-Pro software

SWA software

QAT software

Muon software

GSM8K software

LiveCodeBench v6 software

DFlash software

SWE-bench software

Cerebras organization

El cerebro es un órgano que centraliza la actividad del sistema nervioso y existe en la mayor parte de los animales.

Ver en Wikipedia

deepseek-v4-pro software

math software

MMLU-Pro software

MiMo-V2.5-Pro-UltraSpeed software

Persistent Engine Kernel software

warp specialization software

Sliding Window Attention software

MXFP4 protocol_standard

OCP Microscaling Formats (MX) v1.0 protocol_standard

FP4 protocol_standard

Kimi-K2 software

MMLU software

GPQA-Diamond software

AIME 24&25 event

HumanEval+ software

Groq location

Groenlandia es una isla en la situada en el hemisferio Norte, entre los océanos Atlántico y Glacial Ártico, que políticamente es una nación constituyente del Reino de Dinamarca. Con un total de 2 166

Ver en Wikipedia

TileRT organization

La Tierra es el planeta del sistema solar donde vive la humanidad y que orbita alrededor de su estrella —el Sol— en la tercera órbita más interna. Es el más denso y el quinto mayor de los ocho planeta

Ver en Wikipedia

Xiaomi MiMo organization

Las Xiaomi Mi Band son una serie de monitores de actividad producidos por la empresa china Xiaomi desde 2014. Se trata de pequeños relojes inteligentes que incluyen funciones como medidores de la frec

Ver en Wikipedia

Hugging Face organization

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Xiaomi organization

Xiaomi Corporation conocido comúnmente como Xiaomi y registrado como Xiaomi Inc., es una corporación multinacional y empresa tecnológica china con sede en Pekín dedicada a hacer tanto teléfonos como d

Ver en Wikipedia