speculative decoding

12 Jun 2026

Cómo configurar un agente de codificación local en macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de intern

11 Jun 2026

La economía de la decodificación especulativa en modelos de lenguaje

La decodificación especulativa es una técnica de optimización en inferencia de modelos de lenguaje que acelera la generación de tokens sin pérdida de calidad. Su principio es simple: el modelo predice varios tokens futuros de forma barata y luego verifica solo los aceptados, aprovechando el ancho de

08 Jun 2026

Xiaomi presenta MiMo-V2.5-Pro-UltraSpeed: un modelo de un billón de parámetros que supera los 1.000 tokens por segundo

Xiaomi ha presentado MiMo-V2.5-Pro-UltraSpeed, un modelo de inteligencia artificial de un billón de parámetros (1T) que, según la compañía, supera por primera vez la barrera de los 1.000 tokens por segundo en velocidad de decodificación. El anuncio, realizado a través del blog oficial de Xiaomi MiMo

07 Jun 2026

Speculative KV coding: compresión sin pérdidas de la caché KV de LLM

Speculative KV coding es un nuevo método para reducir el tamaño de la caché de clave-valor (KV cache) de los modelos de lenguaje grandes (LLM) hasta aproximadamente cuatro veces, sin pérdida de información, partiendo de una caché ya comprimida con pérdida en fp8. El contexto de los LLM crece de for

01 Jun 2026

Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU

Un ingeniero logra ejecutar el modelo Gemma 4 con verificación especulativa en un servidor reciclado con un Intel Xeon E5-2620 v4 de ocho núcleos, 128 GB de RAM DDR3 y sin GPU. Explica paso a paso las optimizaciones necesarias para superar la 'barrera de la memoria' en inferencia de LLM. La clave es

26 May 2026

EAGLE 3.1 soluciona el 'attention drift' en decodificación especulativa

El equipo EAGLE, en colaboración con vLLM y TorchSpec, ha presentado EAGLE 3.1, una evolución clave en el algoritmo de *speculative decoding*. Esta tecnología, ampliamente utilizada en sistemas de producción, soluciona la fragilidad de sus predecesores ante variaciones en plantillas de chat y entrad

04 Mar 2026

ia: la lentitud de la generación de texto es un desafío

El campo de la inteligencia artificial, particularmente en modelos de lenguaje grandes (LLMs) como ChatGPT, se enfrenta a un desafío: la generación de texto es inherentemente lenta. El proceso de 'decodificación autoregresiva', que es la forma tradicional en que estos modelos generan texto, implica