Xiaomi presenta MiMo-V2.5-Pro-UltraSpeed: un modelo de un billón de parámetros que supera los 1.000 tokens por segundo

Fuentes: MiMo-V2.5-Pro-UltraSpeed: Pushing 1T-Parameter Model Generation Speed to 1000 TPS, dpaste.comT4

Xiaomi ha presentado MiMo-V2.5-Pro-UltraSpeed, un modelo de inteligencia artificial de un billón de parámetros (1T) que, según la compañía, supera por primera vez la barrera de los 1.000 tokens por segundo en velocidad de decodificación. El anuncio, realizado a través del blog oficial de Xiaomi MiMo, marca un hito técnico en la industria de los modelos de lenguaje de gran escala y sitúa a la firma china en competencia directa con actores como OpenAI, Anthropic o Google en la carrera por la inferencia ultrarrápida.

La nueva variante es fruto de la colaboración entre el equipo del modelo MiMo y el equipo de sistemas TileRT, también de Xiaomi. La API se lanza simultáneamente a un precio promocional equivalente al triple del coste de MiMo-V2.5-Pro, pero ofrece, según la compañía, aproximadamente diez veces más velocidad de generación. El acceso estará disponible únicamente entre el 9 y el 23 de junio de 2026, mediante un sistema de solicitud por candidatura limitada, y dará prioridad a empresas y desarrolladores profesionales con necesidades empresariales reales. Cada cuenta podrá entrar en cola hasta diez veces al día, con sesiones limitadas a 30 minutos y corte automático tras 5 minutos de inactividad.

Desde el punto de vista técnico, Xiaomi detalla que el logro no depende de hardware especializado, como los chips wafer-scale de Cerebras o la arquitectura SRAM de Groq, sino de un diseño conjunto modelo-sistema sobre GPUs comerciales estándar. En concreto, el equipo aplicó cuantización FP4 (MXFP4) selectiva a los expertos de la arquitectura MoE (Mixture of Experts), preservando la precisión original en el resto de módulos. Esta técnica, combinada con un entrenamiento consciente de la cuantización (QAT), reduce drásticamente el tamaño del modelo y el ancho de banda de memoria necesario sin degradar apenas sus capacidades, según Xiaomi.

El segundo pilar es DFlash, un método de decodificación especulativa basado en predicción paralela enmascarada por bloques, que permite al modelo borrador rellenar posiciones enmascaradas en una sola pasada, eliminando la restricción serial del esquema autorregresivo tradicional. Xiaomi asegura haber logrado longitudes de aceptación de 6,30 tokens en escenarios de programación, 5,56 en matemáticas y razonamiento, y 4,29 en agentes, con picos de hasta 7,14 en coding. La conjunción de FP4, DFlash y la compilación a medida de TileRT permite, según la fuente, ejecutar un modelo de 1 billón de parámetros en un único nodo comercial de 8 GPUs, manteniendo una velocidad de salida sostenida por encima de los 1.000 tokens por segundo.

El anuncio subraya el salto cualitativo que esta velocidad representa para las aplicaciones prácticas de la IA. Xiaomi argumenta que, a esta velocidad, un modelo 1T puede ejecutar decenas de rutas de razonamiento en paralelo dentro del mismo tiempo que antes generaba una sola respuesta, elevar la productividad de los agentes de programación y entrar en bucles de decisión en tiempo real: trading cuantitativo de alta frecuencia, antifraude, pujas inteligentes o diálogo interactivo. La compañía llega a señalar aplicaciones en cirugía asistida e imagen médica, donde cada segundo que la IA ahorra en análisis de lesiones puede traducirse en mayor margen de maniobra para el cirujano.

En el plano comercial, la estrategia de Xiaomi combina un precio promocional agresivo durante la ventana de prueba con un acceso restringido que busca maximizar el feedback de usuarios profesionales. La compañía abrió un canal de correo específico (business-mimo@xiaomi.com) para asociaciones de negocio en torno al modelo UltraSpeed, lo que sugiere una voluntad de posicionar la tecnología en sectores verticales de alto valor más allá del consumidor general.

En conclusión, MiMo-V2.5-Pro-UltraSpeed representa un doble mensaje: por un lado, un logro de ingeniería que demuestra que es posible alcanzar velocidades de inferencia de más de 1.000 tokens por segundo en modelos de un billón de parámetros sin recurrir a chips a medida; por otro, una apuesta de Xiaomi por competir en la capa de modelo y de sistema simultáneamente, en un mercado dominado por actores con mayor trayectoria. Las próximas semanas, con el cierre de la ventana de prueba el 23 de junio, servirán para evaluar si las cifras anunciadas se traducen en mejoras reales y sostenidas para desarrolladores y empresas, y si Xiaomi logra convertir esta demostración técnica en una ventaja competitiva duradera.