IA: Menos datos, más cálculo, ¿el nuevo reto?

Fuentes: Language Modeling with Limited Data, Infinite Compute

El campo de la inteligencia artificial, y en particular el modelado del lenguaje, enfrenta un desafío creciente: la escasez de datos. Si bien la capacidad de cómputo ha aumentado exponencialmente, la cantidad de datos de entrenamiento disponibles no sigue el mismo ritmo. Esto crea un cuello de botella, limitando el progreso en el desarrollo de modelos de lenguaje más avanzados. La investigación tradicional asume que se necesita una cantidad proporcional de datos y cómputo para escalar modelos, pero esta relación está cambiando. Campos como la robótica y la biología ya han experimentado esta limitación, demostrando que aumentar el cómputo sin más datos no conduce a mejoras significativas.

Q Labs está abordando este problema con el proyecto NanoGPT Slowrun, una iniciativa de código abierto enfocada en el desarrollo de algoritmos de aprendizaje con datos limitados y cómputo ilimitado. A diferencia de los “speedruns” tradicionales que optimizan el tiempo de entrenamiento, Slowrun prioriza la exploración de técnicas costosas computacionalmente que a menudo se descartan en la búsqueda de velocidad. Esto incluye el uso de una fuerte regularización, optimizadores de segundo orden y alternativas al descenso de gradiente.

Los resultados iniciales de NanoGPT Slowrun son prometedores. El optimizador Muon ha superado a otros métodos como AdamW, SOAP y MAGMA. Además, se ha demostrado que el entrenamiento con múltiples épocas y una agresiva regularización (como el weight decay y el dropout) son cruciales para el éxito. La eficiencia de los datos ha mejorado significativamente, pasando de una mejora de 2.4 veces sobre los benchmarks tradicionales a más de 5.5 veces en solo una semana gracias a contribuciones de la comunidad. Se espera que esta eficiencia pueda llegar a 10 veces a corto plazo e incluso 100 veces para finales de año.

El proyecto está abierto a contribuciones y explora diversas direcciones de investigación, incluyendo optimizadores de segundo orden, modelos de difusión, aprendizaje curricular, alternativas al descenso de gradiente (como la búsqueda evolutiva) y técnicas para optimizar la compresión y la complejidad del modelo. El objetivo final es comprender y resolver el problema de la generalización en modelos de lenguaje, permitiendo el desarrollo de IA más eficiente y adaptable con menos datos.