Este artículo de Q Labs describe un avance significativo en la eficiencia del uso de datos en el entrenamiento de modelos de lenguaje, logrando una mejora de 10 veces utilizando su técnica 'NanoGPT Slowrun'. Esto desafía las leyes de escalamiento convencionales, como las propuestas por Chinchilla, que sugieren una correlación mucho más alta entre el tamaño del modelo y la cantidad de datos necesarios. La clave de este logro radica en una combinación de técnicas innovadoras, que van más allá del simple aumento de la capacidad computacional.
El enfoque principal se centra en el 'ensamblaje' (ensembling) de modelos. En lugar de entrenar un único modelo, se entrenan múltiples modelos de forma relativamente independiente y se combinan sus predicciones. Una observación crucial es que, al superar el punto óptimo individual de cada modelo, el conjunto general mejora su rendimiento, un fenómeno que difiere de la dinámica de entrenamiento de un modelo único. Además, se utiliza 'destilación de conocimiento en cadena' (chain knowledge distillation), donde cada modelo actúa como 'maestro' para el siguiente en la cadena, optimizando el uso de la memoria y la velocidad de entrenamiento. Esto permite que el conjunto aprenda de manera más eficiente.
Además de estas técnicas, se han implementado varias modificaciones arquitectónicas. Se utilizan 'transformers con bucle' (looped transformers), que permiten que el modelo aplique más cómputo por predicción, iterando sobre las capas para refinar las representaciones. También se han incorporado técnicas como 'Atención Propia Exclusiva' (Exclusive Self Attention), 'descomposición de peso' (weight decay) significativamente mayor a la práctica estándar, y conexiones de salto tipo U-Net entre capas transformadoras. Se han realizado optimizaciones en la activación SwiGLU, el manejo de embeddings y otros detalles finos.
Las implicaciones de este trabajo son enormes. Una mayor eficiencia en el uso de datos significa que se pueden entrenar modelos más potentes con menos recursos, lo que abre la puerta a la investigación y desarrollo en áreas donde los datos son escasos o costosos de obtener. Los investigadores de Q Labs creen que hay un potencial significativo para escalar aún más la eficiencia del uso de datos, incluso hasta 100 veces, y que esto podría requerir nuevos avances en el futuro cercano. Este trabajo sugiere que la búsqueda sistemática de arquitecturas de redes neuronales (Neural Architecture Search) es un camino crucial para lograr una mayor eficiencia en el uso de datos.
