06 Jun 2026 · Original en inglés · Artículo

Anatomía de un LLM moderno: de los tokens a la predicción

Fuentes: How LLMs Actually Work

Imagen generada por IA con el prompt: Abstract neural network diagram with glowing nodes connected by flowing light lines, representing stacked transformer layers and rotating token vectors in a deep blue digital space, editorial style. — Imagen generada con IA

Los modelos de lenguaje de gran tamaño (LLM) se construyen apilando bloques transformer una y otra vez, por lo que entender la maquinaria del transformer es la base para comprender su funcionamiento. Esta guía recorre los componentes esenciales de un LLM moderno sin profundizar en las matemáticas, con el objetivo de que cualquier persona pueda leer papers técnicos y model cards actuales e identificar a qué parte de la arquitectura se refiere cada sección.

El recorrido sigue el orden real del procesamiento interno. Primero, la tokenización convierte el texto en una secuencia de identificadores numéricos mediante vocabularios de subpalabras (como Byte Pair Encoding en los modelos GPT o SentencePiece en los modelos tipo LLaMA), con vocabularios que suelen contener entre decenas de miles y cientos de miles de entradas. Cada identificador se transforma después en un vector denso mediante la matriz de embeddings, una tabla donde palabras con significado similar quedan próximas en el espacio vectorial —el conocido ejemplo "rey" menos "hombre" más "mujer" equivale aproximadamente a "reina".

Como la autoatención carece de un mecanismo intrínseco para representar el orden de las palabras, hace falta codificación posicional. El paper original de Vaswani et al. (2017) usaba patrones seno-coseno añadidos a los embeddings, pero los modelos actuales recurren mayoritariamente a Rotary Position Embeddings (RoPE), introducido por Su et al. en 2021 y empleado por LLaMA, Mistral, Gemma o Qwen. RoPE rota cada vector según su posición, de modo que la distancia relativa entre tokens queda codificada de forma natural y generaliza mejor a contextos largos.

Más adelante, el mecanismo de atención permite que cada token intercambie información con el resto de la secuencia, y la atención multi-cabezal rastrea simultáneamente varios tipos de relaciones. Las capas feed-forward almacenan buena parte de la estructura aprendida, mientras que el residual stream y la normalización de capa hacen posible entrenar pilas profundas de forma estable. En la salida, el modelo predice el siguiente token a partir de la distribución de probabilidad sobre el vocabulario, y un bucle de generación repite el proceso hasta completar la respuesta.

En la práctica, los LLM modernos comparten este esqueleto de la familia transformer; las diferencias entre GPT, Claude, Gemini o los modelos abiertos radican en los datos de entrenamiento, la escala, la configuración concreta y el post-entrenamiento (instrucción, RLHF, etc.). La guía incluye pequeños recuadros explicativos para quienes se acercan por primera vez a estos conceptos.

Temas

Etiquetas

llm transformer artificial intelligence machine learning natural language processing tokenization embeddings attention mechanism deep learning neural networks

Entidades mencionadas

GPT software

Gemma software

LLaMA software

SentencePiece software

Byte Pair Encoding protocol_standard

Rotary Position Embeddings protocol_standard

Mistral software

Mistral AI SAS es una startup francesa de inteligencia artificial (IA), con sede en París. Se especializa en modelos de lenguaje grande de pesos abiertos.

Ver en Wikipedia

Su et al. organization

Suéter ―o Sueter― es una banda de rock argentino formada en agosto de 1981 y disuelta en diciembre de 2007. Fue un emblema del rock argentino de inicios de los años 1980 conocido como música divertida

Ver en Wikipedia

Vaswani et al. person

During his research career at Google, Vaswani was part of the Google Brain team, where he conducted the work leading to the 'Attention Is All You Need' publication. Prior to joining Google,

Qwen software