20 May 2026 · Original en inglés · Artículo

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Fuentes: Autoregressive next token prediction & KV Cache in transformers

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generación iterativa). Durante el prefill, el modelo procesa todo el prompt de entrada en una única passada paralela, generando los primeros logits para predecir el primer token y, crucialmente, populando el KV Cache con las matrices de clave (K) y valor (V) para cada capa. El KV Cache es la optimización central: almacena los vectores K y V calculados durante el prefill para que las siguientes iteraciones no necesiten recalcular la atención sobre todo el contexto previo. En la fase decode, el modelo procesa un solo token a la vez (de forma secuencial), generando solo su query (Q) mientras lee las matrices K y V almacenadas en caché. Esto reduce drásticamente el costo computacional: donde un forward pass sin caché procesaría N tokens en cada paso, con KV Cache solo procesa 1 token mientras reutiliza el trabajo anterior. El mecanismo de atención funciona proyectando los embeddings mediante matrices aprendidoas (Wq, Wk, Wv), dividiendo en heads paralelas, calculando scores de atención con máscara causal (cada token solo ve los anteriores), aplicando softmax y produciendo representaciones contextuales. Esta técnica es lo que hace viable la generación de secuencias largas en LLMs modernos, reduciendo el tiempo de inferencia de manera significativa y permitiendo aplicaciones prácticas como chatbots y asistentes IA.

Etiquetas

transformer large language model kv cache autoregressive model attention mechanism neural networks deep learning inferencia de modelos token prediction optimización computacional

Entidades mencionadas

KV cache software

LLMs software

Llissá de Vall es un municipio de la comarca del Vallés Oriental situado en la Vall del Tenes y el límite de la llanura de Granollers.

BOS software

MLP software

GeLU software

X₁ software

X₃ software

Wq software

Wk software

Wv software

W_up software

W_down software

Transformers software

Medium organization

Medium es un servicio de publicación de blogs creado por los fundadores de Twitter Evan Williams y Biz Stone en agosto de 2012. La plataforma ha evolucionado hacia un híbrido de contribuciones no prof

Ver en Wikipedia

Frederik vom Lehn person

Read writing from Frederik vom Lehn on Medium. Data Scientist/ AI Engineer. M.Sc. Artificial Intelligence & M.Sc. Psychology. Interested in self-supervised learning, deep learning and deep brain d