01 Jun 2026 · Original en inglés · Artículo

Stanford CS336: un curso para construir un modelo de lenguaje desde cero

Fuentes: Stanford CS336: a course to build a language model from scratch, github.com

Imagen generada por IA con el prompt: Editorial illustration of a modern university lecture hall with rows of students working on laptops displaying neural network diagrams, warm lighting, chalkboard with transformer equations, academic atmosphere — Imagen generada con IA

Stanford, una de las universidades más prestigiosas del mundo en ciencias de la computación, ha puesto en marcha el curso CS336, una asignatura singular que propone a los estudiantes construir un modelo de lenguaje de gran tamaño (LLM) desde cero, replicando el espíritu de los legendarios cursos de sistemas operativos que pedían a los alumnos crear su propio sistema operativo.

El programa, impartido por figuras destacadas del ámbito de la inteligencia artificial como Percy Liang —director del Center for Research on Foundation Models de Stanford— y Tatsu Hashimoto, junto a los instructores Marcel Rød, Herman Brunborg y Steven Cao, se ha consolidado como una de las ofertas académicas más intensas del semestre. Las clases se llevan a cabo los lunes y miércoles de 15:00 a 16:20 horas en el Skilling Auditorium, y todas las sesiones quedan grabadas en una lista de reproducción de YouTube, lo que permite su seguimiento global.

Enfoque práctico y exhaustivo
A diferencia de la mayoría de cursos de IA, que suelen ofrecer implementaciones predefinidas y centrarse en la teoría, CS336 adopta un enfoque eminentemente práctico. Según describe el programa, la asignatura guía a los estudiantes a lo largo de todo el proceso de creación de un modelo de lenguaje: desde la recolección y limpieza de datos para el preentrenamiento, pasando por la construcción de la arquitectura Transformer, hasta el entrenamiento del modelo y su evaluación previa al despliegue.

«El código que escribirás será al menos un orden de magnitud mayor que en otras clases», advierte la documentación oficial. Esta intensidad se refleja en los requisitos previos: los alumnos deben dominar Python, tener experiencia en deep learning y optimización de sistemas, estar familiarizados con PyTorch y contar con conocimientos sólidos de cálculo, álgebra lineal, probabilidad y machine learning. Se trata de una asignatura de 5 créditos, lo que subraya su elevada carga lectiva.

Cinco assignments para dominar el ciclo completo
El temario se articula en torno a cinco trabajos prácticos progresivos. El primero, «Basics», sienta las bases al pedir a los estudiantes implementar todos los componentes necesarios —tokenizador, arquitectura del modelo y optimizador— para entrenar un Transformer estándar. El segundo, «Systems», se centra en el perfilado y la optimización, incluyendo una implementación propia en Triton de FlashAttention2 y una versión distribuida y eficiente en memoria del código de entrenamiento.

El tercer assignment, «Scaling», aborda las leyes de escalado de los modelos, mientras que el cuarto, «Data», sumerge a los alumnos en el procesamiento de dumps de Common Crawl, incluyendo filtrado y deduplicación. Finalmente, el quinto assignment, «Alignment and Reasoning RL», introduce el ajuste supervisado y el aprendizaje por refuerzo para entrenar modelos que razonen al resolver problemas matemáticos, con una parte opcional sobre alineación de seguridad mediante métodos como DPO.

Acceso a computación y políticas académicas
Consciente de la necesidad de GPUs potentes, el curso facilita a los estudiantes que sigan la asignatura de forma autónoma una lista de proveedores de nube con precios transparentes. Modal, patrocinador del programa, ofrece una B200 a 6,25 dólares por hora con 30 dólares de cómputo gratuito mensual. Le siguen Lambda Labs (6,69 dólares), RunPod (4,99 dólares), Nebius (5,50 dólares) y Together (7,49 dólares). El equipo docente recomienda depurar el código en CPU y reservar las GPUs para las ejecuciones de entrenamiento y benchmarking.

En cuanto a las políticas académicas, el curso aplica el código de honor de Stanford: se permiten grupos de estudio, pero cada alumno debe comprender y completar su propio trabajo. El uso de herramientas de IA como ChatGPT está permitido para dudas conceptuales o de programación de bajo nivel, aunque se prohíbe su uso directo para resolver los problemas. De hecho, el profesorado recomienda desactivar el autocompletado por IA en los editores para favorecer una comprensión profunda del contenido.

Una formación para la próxima generación de investigadores
El curso responde a una creciente demanda de profesionales que no solo sepan utilizar modelos de lenguaje, sino que comprendan en profundidad su funcionamiento interno. En un ecosistema dominado por APIs cerradas y modelos opacos, CS336 reivindica la transparencia y el conocimiento técnico detallado como pilares de la próxima generación de ingenieros e investigadores en IA.

Con un temario que cubre desde la limpieza de datos crudos de la web hasta la alineación de seguridad, la asignatura se posiciona como una de las ofertas académicas más completas para quienes aspiran a contribuir al desarrollo de modelos fundacionales. La grabación pública de las clases y la disponibilidad del material en GitHub amplían su alcance más allá del campus de Stanford, consolidándolo como un recurso de referencia para la comunidad global de machine learning.

Temas

ia educación y alfabetización

Etiquetas

language modeling modelos de lenguaje tatsu hashimoto transformers inteligencia artificial aprendizaje profundo deep learning dpo percy liang educación stanford common crawl cs336 flashattention transformer pytorch

Entidades mencionadas

Triton software

FlashAttention2 software

Together organization

Together at Home fue una serie de conciertos virtuales organizados por Global Citizen y la cantante estadounidense Lady Gaga, en apoyo a la Organización Mundial de Salud. El especial está destinado a

Ver en Wikipedia

Skilling Auditorium location

Common Crawl software

DPO protocol_standard

Tatsu Hashimoto person

Tamotsu Hashimoto-Gothon fue un botánico japonés. Fue especialista en hongos, Bryophyta y en espermatófitas. Trabajó académicamente en el jardín botánico Tsukuba, del Museo Nacional de Ciencias, siend

Ver en Wikipedia

Marcel Rød person

Marcellus Rodríguez-López es un músico multiinstrumentista estadounidense y el hermano menor de Omar Rodríguez-López. Toca bongos, congas, tambores, maracas, teclado Y shekere.

Ver en Wikipedia

Herman Brunborg person

brunborg@stanford.edu · University - Student Department:&nbspICME Operations Position:&nbsp;Graduate ·

Steven Cao person

Steven Paul «Steve» Jobs fue un empresario, diseñador industrial, magnate empresarial, propietario de medios e inversor estadounidense. Fue cofundador y presidente ejecutivo de Apple y máximo accionis

Ver en Wikipedia

Lambda Labs organization

Lambda Librae es una estrella en la constelación de Libra de magnitud aparente +5,03. Aunque no tiene nombre propio habitual, junto a κ Librae ha ostentado el título de Jih, «el Sol». Se localiza prác

Ver en Wikipedia

RunPod person

Todd Harry Rundgren es un cantante, compositor, multiinstrumentista y productor musical estadounidense. Es conocido especialmente por dos de sus álbumes, aclamados por la crítica: Something/Anything?

Ver en Wikipedia

Nebius location

Nebraska es uno de los cincuenta estados que, junto con Washington D. C., forman los Estados Unidos de América. Su capital es Lincoln y su ciudad más poblada, Omaha. Se ubica en la región Medio Oeste

Ver en Wikipedia

Transformer protocol_standard

Modal organization

El modal, rayón HWM o «fibra polinósica» es una fibra artificial de celulosa regenerada; es decir, un tipo de rayón. Normalmente se fabrica por el proceso de la viscosa; posee alta tenacidad y alto mó

Ver en Wikipedia

pytorch software

PyTorch es una biblioteca de aprendizaje automático de código abierto basada en la biblioteca de Torch, utilizado para aplicaciones como visión artificial y procesamiento de lenguajes naturales, princ

Ver en Wikipedia

Percy Liang person

La carmelita común, también denominada comúnmente coloradita, truchecita o trucha, es una especie de peces Centrarchiformes de agua dulce del género Percilia. Habita en biotopos templados o templado-f

Ver en Wikipedia

Stanford University organization

La Universidad Leland Stanford Junior, conocida simplemente como Universidad Stanford, es una universidad privada estadounidense ubicada en Stanford (California), a unos 56 km al sureste de San Franci

Ver en Wikipedia