Xiaomi ha presentado MiMo-V2.5-Pro-UltraSpeed, una variante de su modelo MoE de 1,02 billones de parámetros (42B activos) capaz de generar hasta ~1200 tokens por segundo sobre un único nodo de 8 GPUs comerciales. El hito no es solo una cifra de marketing: es la primera vez que un modelo de escala trillón rompe la barrera del millar de tokens/s sin recurrir a hardware especializado tipo wafer-scale (Cerebras) o SRAM on-chip (Groq). El anuncio se ha publicado el 8 de junio de 2026 en el blog oficial de Xiaomi MiMo, en colaboración con TileRT, un equipo de arquitectura de sistemas enfocado a inferencia de latencia ultrabaja.
Por qué importa
La velocidad de inferencia a esta escala cambia el tipo de problemas que un modelo puede abordar. En el comunicado, Xiaomi lo resume en tres ejes:
- Velocidad como inteligencia. Dentro del mismo wall-clock, un modelo a 1000 tps puede correr docenas de caminos de razonamiento en paralelo (Best-of-N, tree search) y autocorregirse en background, usando velocidad bruta para ganar profundidad de razonamiento.
- Agents de coding sin pausas. A 1000 tps, escribir código deja de ser una espera dolorosa y se convierte en iteración instantánea.
- Loops de decisión en tiempo real. Trading cuantitativo de alta frecuencia, antifraude, bidding publicitario en tiempo real e, incluso, asistencia quirúrgica y análisis de imagen médica, entran por primera vez al territorio del "responde mientras piensas".
Ficha técnica
- Parámetros totales: 1,02 billones (MoE).
- Parámetros activos por token: 42 mil millones.
- Contexto: hasta 1 millón de tokens (longitud nativa de secuencia de 32k).
- Precisión de inferencia: FP4 (MXFP4) selectivo en los experts MoE; resto del modelo en precisión original; cuantización con QAT (Quantization-Aware Training).
- Speculative decoding: DFlash (predicción paralela enmascarada por bloques, tamaño 8), optimizado con el optimizador de segundo orden Muon y self-distillation.
- Sistema de inferencia: TileRT, con Persistent Engine Kernel y Warp Specialization.
- Hardware objetivo: un único nodo commodity de 8 GPUs (sin hardware exótico).
- Velocidad: 1000+ tokens/s sostenidos, hasta ~1200 tps en pico.
El codesign modelo-sistema: las tres palancas
FP4 selectivo en experts MoE
Cuantizar un modelo de 1T a 4 bits "a lo bruto" degrada razonamiento, lógica y código. Xiaomi aprovecha que la arquitectura MoE de MiMo-V2.5-Pro tiene los experts como inmensa mayoría de parámetros y, a la vez, como la parte más tolerante a la cuantización. El equipo aplica MXFP4 únicamente a los experts MoE y deja el resto del modelo en precisión original. El resultado, según Xiaomi, es mantener "esencialmente" las capacidades del modelo base, mientras se libera el bandwidth de memoria que era el cuello de botella a escala trillón. La especificación de formato que referencian es la OCP Microscaling Formats (MX) v1.0.
DFlash speculative decoding
El speculative decoding clásico enfrenta un trade-off incómodo: un draft model pequeño acepta pocos tokens; uno grande, cuesta demasiado. DFlash, descrito en arXiv (2602.06036), rompe el esquema: en lugar de generar token a token, el draft rellena un bloque entero de posiciones enmascaradas en un único forward pass. Xiaomi lo despliega sobre MiMo-V2.5-Pro con optimizaciones para escala trillón y contexto largo: Sliding Window Attention (SWA) en el draft, alineado con el diseño SWA de la serie V2; muestreo de señales de máscara empujado a shards locales de GPU para generar decenas de miles de señales de entrenamiento independientes por paso; y tamaño de bloque limitado a 8 para maximizar concurrencia.
Los acceptance lengths que reporta Xiaomi son los que justifican el salto:
- Coding: 6,30 (máx. 7,14) — 6-7 de cada 8 tokens borrador aceptados.
- Math/Reasoning: 5,56.
- Agent: 4,29.
TileRT: el motor de inferencia persistente
A frecuencias de 1000 tps, cada operador vive microsegundos. TileRT sustituye el patrón clásico de "lanzar operador, esperar, sincronizar" por un Persistent Engine Kernel que mantiene el pipeline completo residente en la GPU, con prefetching continuo y solapamiento total entre datos y cómputo. La Warp Specialization descompone comunicación, movimiento de datos y cómputo tensorial en dominios heterogéneos, eliminando las pausas entre kernels. Xiaomi y TileRT cierran el círculo con un codesign microsegundo a microsegundo: el modelo adopta la mezcla FP4 en MoE Experts y DFlash alineado con SWA, y el sistema se compila y ajusta a esos patrones. Sin optimización puntual, por muy buena que sea, sale el 1000 tps; con codesign, sale inevitablemente.
Benchmarks: dónde se coloca el Pro (base del UltraSpeed)
La página del modelo en Hugging Face (XiaomiMiMo/MiMo-V2.5-Pro) ofrece la comparativa más clara frente a sus rivales más directos. El MiMo-V2.5-Pro base, sin post-training, ya pelea de tú a tú con DeepSeek-V4-Pro y Kimi-K2 en razonamiento, matemática y código:
| Categoría | Benchmark | MiMo-V2.5-Pro Base | DeepSeek-V4-Pro Base | Kimi-K2 Base |
|---|---|---|---|---|
| General | MMLU (5-shot) | 89,4 | 90,1 | 87,8 |
| General | MMLU-Pro (5-shot) | 68,5 | 73,5 | 69,2 |
| General | GPQA-Diamond (5-shot) | 66,7 | — | 48,1 |
| Math | GSM8K (8-shot) | 99,6 | 92,6 | 92,1 |
| Math | MATH (4-shot) | 86,2 | 64,5 | 70,2 |
| Math | AIME 24&25 (2-shot) | 37,3 | — | 31,6 |
| Code | HumanEval+ (1-shot) | 75,6 | — | 84,8 |
| Code | LiveCodeBench v6 (1-shot) | 39,6 | — | 26,3 |
| Agent | SWE-Bench (AgentLess, 3-shot) | 35,7 | — | — |
Activados / totales: MiMo 42B/1.02T · DeepSeek-V4-Pro 49B/1.6T · Kimi-K2 32B/1.04T.
Tres observaciones rápidas:
- En matemática y razonamiento científico, MiMo-V2.5-Pro manda. La brecha en MATH (86,2 vs 64,5 de DeepSeek) y AIME (37,3 vs 31,6 de Kimi) es demasiado grande para ser ruido.
- En código agentic (SWE-Bench, LiveCodeBench), también. Es el único modelo del cuadro con resultado reportable en SWE-Bench AgentLess.
- MMLU-Pro se le resiste (68,5 vs 73,5 de DeepSeek), coherente con un modelo optimizado para razonamiento profundo más que para knowledge retrieval amplio.
El UltraSpeed hereda el post-training del Pro (SFT + agentic RL a gran escala + Multi-Teacher On-Policy Distillation), así que las cifras deberían trasladarse — el UltraSpeed no es un downtier, es el mismo modelo corriendo 10× más rápido.
Open source: qué hay y qué falta
Aquí la cosa se separa en dos:
- MiMo-V2.5-Pro (base + instruct) y MiMo-V2.5-Pro-Base son open-weight en Hugging Face, con pesos FP8 (E4M3) Mixed, contexto 1M (instruct) / 256K (base), MoE 1.02T/42B. La página HF reporta ~73.700 descargas en el último mes: tracción real, no vaporware.
- MiMo-V2.5-Pro-FP4-DFlash — el checkpoint específico con cuantización FP4 y DFlash que alimenta al UltraSpeed — está también open-source en
huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash, según el blog oficial. Esto permite a cualquiera con 8 GPUs reproducir las optimizaciones de inferencia. - MiMo-V2.5-Pro-UltraSpeed como tal (la versión servida por el stack de TileRT en producción) es API-only durante la ventana de prueba. El blog oficial promete "UltraSpeed support for MiMo-V2.5 is on the way", así que es cuestión de tiempo que ese wrapper también se abra.
Disponibilidad y precio
- Acceso: API en
platform.xiaomimimo.com/ultraspeedy chat gratuito (durante el trial) enultraspeed.xiaomimimo.com. - Ventana: 9 a 23 de junio de 2026, 23:59 hora Beijing (UTC+8).
- Tipo de acceso: por solicitud, con cupos limitados. Prioridad a empresas y desarrolladores profesionales con uso real. API only — el Token Plan no soporta UltraSpeed.
- Precio: 3× el coste de MiMo-V2.5-Pro por ~10× la velocidad de generación. (El plan general de MiMo-V2.5 ya bajó precios hasta un 99% en mayo, según el anuncio del 26 de mayo que generó 134 puntos en HN.)
- Cuotas durante el trial: 10 entradas a la cola por cuenta y día, sesiones de 30 min máx, liberación automática tras 5 min de inactividad.
- Contacto enterprise:
business-mimo@xiaomi.com.
Contexto: la race to zero china
Es difícil leer este anuncio sin enmarcarlo en la dinámica que el propio hilo de HN sobre la bajada de precios dejó explícita el mes pasado: "First DeepSeek, now Xiaomi. A price cut of 99%… This is why Anthropic wants these Chinese AI models banned as they are in the lead in the AI race to zero." Las reacciones de usuarios reportando uso real (planes ampliados automáticamente de 500M a 38B tokens/mes al mismo precio) muestran que la presión sobre la frontera de coste ya está afectando al uso, no solo a las hojas de ruta.
El UltraSpeed no es solo "más tokens por segundo"; es la pieza que faltaba para que un modelo 1T abierto pueda usarse en flujos agentic y de tiempo real sin tener que recurrir a APIs cerradas occidentales. Si Xiaomi mantiene la apertura de los pesos y empuja el UltraSpeed a self-hosting en hardware commodity, el listón de "qué se puede hacer con un modelo abierto a 1000 tps" lo acaba de subir.
Fuentes
- Xiaomi MiMo (blog oficial) — MiMo-V2.5-Pro-UltraSpeed: Pushing 1T-Parameter Model Generation Speed to 1000 TPS, 8 de junio de 2026. https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
- Hugging Face — XiaomiMiMo/MiMo-V2.5-Pro (ficha del modelo, benchmarks y descargas). https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro
- Hugging Face — XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash (checkpoint open-source con FP4 + DFlash). https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
- TileRT — Breaking 1000 TPS (post técnico del sistema de inferencia). https://tilert.ai/blog/breaking-1000-tps.html
- DFlash (paper) — arXiv 2602.06036.
- OCP — Microscaling Formats (MX) v1.0 Spec (formato MXFP4).
- Hacker News — hilo de anuncio de la bajada de precios de la serie v2.5, 26 de mayo de 2026. https://news.ycombinator.com/item?id=48282814
