08 Jun 2026 · Original en inglés · Artículo

Una implementación minimalista y didáctica de un transformador generativo a nivel de byte

Fuentes: GPT from scratch: a byte-level transformer implementation in C

Imagen generada por IA con el prompt: Abstract neural network visualization with glowing nodes and connections, deep blue and purple palette, a small terminal window showing code, dark digital atmosphere, minimal tech style — Imagen generada con IA

El repositorio markusheimerl/gpt contiene una implementación desde cero de un modelo de lenguaje autorregresivo basado en la arquitectura transformer. A diferencia de las versiones tokenizadas habituales, este proyecto trabaja directamente con bytes (8 bits), lo que le permite modelar cualquier secuencia de bytes: texto, ADN, ARN, datos comprimidos, imágenes, audio, vídeo o binarios ejecutables. El vocabulario efectivo es de 256 valores, uno por cada byte posible.

El núcleo del modelo es un transformer multicapa estándar. Cada capa combina un mecanismo de autoatención causal y una red feed-forward, ambas envueltas en conexiones residuales. La atención causal garantiza que cada posición solo dependa de las anteriores, condición indispensable para la generación autorregresiva. Internamente, la atención calcula proyecciones de query, key y value, aplica codificación posicional rotacional (RoPE) a queries y keys, realiza el producto escalar escalado con máscara causal y proyecta el resultado de vuelta. La red feed-forward aplica dos transformaciones lineales separadas por una activación Swish.

Tras pasar por todas las capas, una proyección lineal convierte los estados ocultos en logits sobre los 256 valores posibles. La función softmax convierte esos logits en probabilidades y el modelo se entrena maximizando la probabilidad del siguiente byte mediante pérdida de entropía cruzada. El entrenamiento emplea el optimizador AdamW, que desacopla la decaimiento de pesos del gradiente y mejora la generalización. Para acelerar los cálculos, la implementación usa BLAS y soporta CUDA, lo que permite entrenar eficientemente en hardware moderno.

El proceso de instalación es directo en sistemas Debian/Ubuntu: instalar clang, make, libopenblas-dev y nvidia-cuda-toolkit, clonar el repositorio y ejecutar make data, make run -j 6 y make infer. La configuración por defecto es d_model=512, hidden=1024, 16 capas, longitud de secuencia 1024 y vocabulario 256. Los ejemplos de generación incluidos muestran que, con el prompt 'Once upon a time, there was a', el modelo produce relatos cortos en inglés con estructuras narrativas reconocibles, aunque con coherencia limitada y repeticiones propias de un modelo pequeño. La generación admite temperatura (T=0,70 en las muestras) y semilla fija para reproducibilidad.

El proyecto tiene un marcado carácter didáctico: está pensado para quien quiera entender cómo funciona un GPT a bajo nivel, sin las abstracciones de PyTorch o TensorFlow. Su vocabulario byte-level lo hace especialmente interesante para experimentar con modalidades más allá del texto. Entre sus limitaciones destacan que no se distribuye con datasets preentrenados, los ejemplos corresponden a un modelo de tamaño modesto y la documentación se reduce al propio README.

Etiquetas

generative pretrained transformer transformer architecture autoregressive model byte-level tokenization c language openblas cuda machine learning rotary positional embedding adamw optimizer

Entidades mencionadas

markusheimerl person

Allgemeine Informationen nach §5 TMG: Markus Nistor (geb. Heimerl) Lindenweg 11 94161 Ruderting Tel.: +49 (0)8509 / 934 752 E-Mail: kontakt@markusheimerl.de Inhaltlich Verantwortlich gemäß § 55 Abs.

BLAS protocol_standard

OpenBLAS software

CUDA software

Nvidia organization

Nvidia es una empresa tecnológica líder en el desarrollo de GPUs, incluyendo las H200 utilizadas por Kog AI para demostrar inferencia de tokens a alta velocidad. La empresa es un actor clave en el mer

Ver en Wikipedia

AdamW software

Swish software

RoPE protocol_standard

GitHub organization

GitHub es una plataforma en línea utilizada para alojar y gestionar proyectos de software, incluyendo el código fuente de Secluso, la startup de privacidad que ha lanzado un sistema de seguridad para

Ver en Wikipedia