Cómo configurar un agente de codificación local en macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de intern

La economía de la decodificación especulativa en modelos de lenguaje

La decodificación especulativa es una técnica de optimización en inferencia de modelos de lenguaje que acelera la generación de tokens sin pérdida de calidad. Su principio es simple: el modelo predice varios tokens futuros de forma barata y luego verifica solo los aceptados, aprovechando el ancho de

Speculative KV coding: compresión sin pérdidas de la caché KV de LLM

Speculative KV coding es un nuevo método para reducir el tamaño de la caché de clave-valor (KV cache) de los modelos de lenguaje grandes (LLM) hasta aproximadamente cuatro veces, sin pérdida de información, partiendo de una caché ya comprimida con pérdida en fp8. El contexto de los LLM crece de for

Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU

Un ingeniero logra ejecutar el modelo Gemma 4 con verificación especulativa en un servidor reciclado con un Intel Xeon E5-2620 v4 de ocho núcleos, 128 GB de RAM DDR3 y sin GPU. Explica paso a paso las optimizaciones necesarias para superar la 'barrera de la memoria' en inferencia de LLM. La clave es

EAGLE 3.1 soluciona el 'attention drift' en decodificación especulativa

El equipo EAGLE, en colaboración con vLLM y TorchSpec, ha presentado EAGLE 3.1, una evolución clave en el algoritmo de *speculative decoding*. Esta tecnología, ampliamente utilizada en sistemas de producción, soluciona la fragilidad de sus predecesores ante variaciones en plantillas de chat y entrad

ia: la lentitud de la generación de texto es un desafío

El campo de la inteligencia artificial, particularmente en modelos de lenguaje grandes (LLMs) como ChatGPT, se enfrenta a un desafío: la generación de texto es inherentemente lenta. El proceso de 'decodificación autoregresiva', que es la forma tradicional en que estos modelos generan texto, implica