Anatomía de un LLM moderno: de los tokens a la predicción

Fuentes: How LLMs Actually Work
Imagen generada por IA con el prompt: Abstract neural network diagram with glowing nodes connected by flowing light lines, representing stacked transformer layers and rotating token vectors in a deep blue digital space, editorial style.
Imagen generada con IA

Los modelos de lenguaje de gran tamaño (LLM) se construyen apilando bloques transformer una y otra vez, por lo que entender la maquinaria del transformer es la base para comprender su funcionamiento. Esta guía recorre los componentes esenciales de un LLM moderno sin profundizar en las matemáticas, con el objetivo de que cualquier persona pueda leer papers técnicos y model cards actuales e identificar a qué parte de la arquitectura se refiere cada sección.

El recorrido sigue el orden real del procesamiento interno. Primero, la tokenización convierte el texto en una secuencia de identificadores numéricos mediante vocabularios de subpalabras (como Byte Pair Encoding en los modelos GPT o SentencePiece en los modelos tipo LLaMA), con vocabularios que suelen contener entre decenas de miles y cientos de miles de entradas. Cada identificador se transforma después en un vector denso mediante la matriz de embeddings, una tabla donde palabras con significado similar quedan próximas en el espacio vectorial —el conocido ejemplo "rey" menos "hombre" más "mujer" equivale aproximadamente a "reina".

Como la autoatención carece de un mecanismo intrínseco para representar el orden de las palabras, hace falta codificación posicional. El paper original de Vaswani et al. (2017) usaba patrones seno-coseno añadidos a los embeddings, pero los modelos actuales recurren mayoritariamente a Rotary Position Embeddings (RoPE), introducido por Su et al. en 2021 y empleado por LLaMA, Mistral, Gemma o Qwen. RoPE rota cada vector según su posición, de modo que la distancia relativa entre tokens queda codificada de forma natural y generaliza mejor a contextos largos.

Más adelante, el mecanismo de atención permite que cada token intercambie información con el resto de la secuencia, y la atención multi-cabezal rastrea simultáneamente varios tipos de relaciones. Las capas feed-forward almacenan buena parte de la estructura aprendida, mientras que el residual stream y la normalización de capa hacen posible entrenar pilas profundas de forma estable. En la salida, el modelo predice el siguiente token a partir de la distribución de probabilidad sobre el vocabulario, y un bucle de generación repite el proceso hasta completar la respuesta.

En la práctica, los LLM modernos comparten este esqueleto de la familia transformer; las diferencias entre GPT, Claude, Gemini o los modelos abiertos radican en los datos de entrenamiento, la escala, la configuración concreta y el post-entrenamiento (instrucción, RLHF, etc.). La guía incluye pequeños recuadros explicativos para quienes se acercan por primera vez a estos conceptos.