Stanford CS336: un curso para construir un modelo de lenguaje desde cero

Fuentes: Stanford CS336: a course to build a language model from scratch, github.com
Imagen generada por IA con el prompt: Editorial illustration of a modern university lecture hall with rows of students working on laptops displaying neural network diagrams, warm lighting, chalkboard with transformer equations, academic atmosphere
Imagen generada con IA

Stanford, una de las universidades más prestigiosas del mundo en ciencias de la computación, ha puesto en marcha el curso CS336, una asignatura singular que propone a los estudiantes construir un modelo de lenguaje de gran tamaño (LLM) desde cero, replicando el espíritu de los legendarios cursos de sistemas operativos que pedían a los alumnos crear su propio sistema operativo.

El programa, impartido por figuras destacadas del ámbito de la inteligencia artificial como Percy Liang —director del Center for Research on Foundation Models de Stanford— y Tatsu Hashimoto, junto a los instructores Marcel Rød, Herman Brunborg y Steven Cao, se ha consolidado como una de las ofertas académicas más intensas del semestre. Las clases se llevan a cabo los lunes y miércoles de 15:00 a 16:20 horas en el Skilling Auditorium, y todas las sesiones quedan grabadas en una lista de reproducción de YouTube, lo que permite su seguimiento global.

Enfoque práctico y exhaustivo
A diferencia de la mayoría de cursos de IA, que suelen ofrecer implementaciones predefinidas y centrarse en la teoría, CS336 adopta un enfoque eminentemente práctico. Según describe el programa, la asignatura guía a los estudiantes a lo largo de todo el proceso de creación de un modelo de lenguaje: desde la recolección y limpieza de datos para el preentrenamiento, pasando por la construcción de la arquitectura Transformer, hasta el entrenamiento del modelo y su evaluación previa al despliegue.

«El código que escribirás será al menos un orden de magnitud mayor que en otras clases», advierte la documentación oficial. Esta intensidad se refleja en los requisitos previos: los alumnos deben dominar Python, tener experiencia en deep learning y optimización de sistemas, estar familiarizados con PyTorch y contar con conocimientos sólidos de cálculo, álgebra lineal, probabilidad y machine learning. Se trata de una asignatura de 5 créditos, lo que subraya su elevada carga lectiva.

Cinco assignments para dominar el ciclo completo
El temario se articula en torno a cinco trabajos prácticos progresivos. El primero, «Basics», sienta las bases al pedir a los estudiantes implementar todos los componentes necesarios —tokenizador, arquitectura del modelo y optimizador— para entrenar un Transformer estándar. El segundo, «Systems», se centra en el perfilado y la optimización, incluyendo una implementación propia en Triton de FlashAttention2 y una versión distribuida y eficiente en memoria del código de entrenamiento.

El tercer assignment, «Scaling», aborda las leyes de escalado de los modelos, mientras que el cuarto, «Data», sumerge a los alumnos en el procesamiento de dumps de Common Crawl, incluyendo filtrado y deduplicación. Finalmente, el quinto assignment, «Alignment and Reasoning RL», introduce el ajuste supervisado y el aprendizaje por refuerzo para entrenar modelos que razonen al resolver problemas matemáticos, con una parte opcional sobre alineación de seguridad mediante métodos como DPO.

Acceso a computación y políticas académicas
Consciente de la necesidad de GPUs potentes, el curso facilita a los estudiantes que sigan la asignatura de forma autónoma una lista de proveedores de nube con precios transparentes. Modal, patrocinador del programa, ofrece una B200 a 6,25 dólares por hora con 30 dólares de cómputo gratuito mensual. Le siguen Lambda Labs (6,69 dólares), RunPod (4,99 dólares), Nebius (5,50 dólares) y Together (7,49 dólares). El equipo docente recomienda depurar el código en CPU y reservar las GPUs para las ejecuciones de entrenamiento y benchmarking.

En cuanto a las políticas académicas, el curso aplica el código de honor de Stanford: se permiten grupos de estudio, pero cada alumno debe comprender y completar su propio trabajo. El uso de herramientas de IA como ChatGPT está permitido para dudas conceptuales o de programación de bajo nivel, aunque se prohíbe su uso directo para resolver los problemas. De hecho, el profesorado recomienda desactivar el autocompletado por IA en los editores para favorecer una comprensión profunda del contenido.

Una formación para la próxima generación de investigadores
El curso responde a una creciente demanda de profesionales que no solo sepan utilizar modelos de lenguaje, sino que comprendan en profundidad su funcionamiento interno. En un ecosistema dominado por APIs cerradas y modelos opacos, CS336 reivindica la transparencia y el conocimiento técnico detallado como pilares de la próxima generación de ingenieros e investigadores en IA.

Con un temario que cubre desde la limpieza de datos crudos de la web hasta la alineación de seguridad, la asignatura se posiciona como una de las ofertas académicas más completas para quienes aspiran a contribuir al desarrollo de modelos fundacionales. La grabación pública de las clases y la disponibilidad del material en GitHub amplían su alcance más allá del campus de Stanford, consolidándolo como un recurso de referencia para la comunidad global de machine learning.