Red neuronal Transformer corre en Macintosh clásico

Fuentes: GitHub - SeanFDZ/macmind: Single-layer transformer in HyperTalk for the classic Macintosh

MacMind es un proyecto fascinante que demuestra el funcionamiento interno de las redes neuronales, incluso con recursos extremadamente limitados. Se trata de una implementación completa de una red neuronal Transformer de una sola capa, con solo 1.216 parámetros, escrita completamente en HyperTalk, un lenguaje de scripting de 1987 diseñado para el Macintosh clásico. Lo más sorprendente es que esta red fue entrenada en un Macintosh SE/30.

¿Cómo funciona? MacMind aprende a realizar una permutación de bits inversa, que es el primer paso del algoritmo de la Transformada Rápida de Fourier (FFT). Este algoritmo es fundamental en la computación. La red no recibe instrucciones directas sobre cómo realizar esta permutación; en cambio, la descubre a través de un proceso de aprendizaje basado en autoatención (self-attention) y descenso de gradiente estocástico (stochastic gradient descent). El proceso de entrenamiento, aunque a una escala mucho menor, es idéntico al utilizado para entrenar modelos de lenguaje masivos como GPT-4: propagación hacia adelante (forward pass), cálculo de la pérdida (loss computation), propagación hacia atrás (backward pass) y actualización de los pesos (weight update).

¿Para qué sirve? MacMind no pretende ser una herramienta práctica en sí misma. Su principal valor reside en su capacidad para ilustrar de manera clara y accesible los principios básicos del aprendizaje profundo. Permite a los usuarios inspeccionar cada línea de código, modificar los parámetros de entrenamiento, e incluso observar el proceso de aprendizaje en tiempo real. Esto desmitifica la inteligencia artificial, mostrando que, aunque compleja, se basa en matemáticas comprensibles.

Consideraciones: Debido a que está escrita en HyperTalk e interpretada, el rendimiento es lento, incluso en emuladores modernos. El entrenamiento completo puede llevar horas. Además, el proyecto está limitado por las capacidades de HyperCard, como un límite de caracteres en el registro de entrenamiento. A pesar de estas limitaciones, MacMind ofrece una perspectiva única sobre cómo se construyen y entrenan los modelos de IA, enfatizando que la diferencia entre un modelo simple como MacMind y uno gigante como GPT-4 radica en la escala, no en el tipo de cálculo. Es una herramienta educativa invaluable para comprender los fundamentos de la IA.