Leyes de escalado en aprendizaje profundo: guía técnica

Fuentes: Scaling Laws, Carefully

Las leyes de escalado son uno de los hallazgos empíricos más relevantes del aprendizaje profundo: describen cómo la pérdida de entrenamiento disminuye de forma predecible, siguiendo una curva de potencia, al aumentar el tamaño del modelo (N), el volumen de datos (D) y el cómputo (C). Su utilidad práctica es enorme: permiten entrenar modelos pequeños para ajustar una ley y luego extrapolar los requisitos de tokens y cómputo necesarios para modelos mucho mayores, optimizando la asignación de recursos entre N y D.

El artículo repasa la evolución del campo. Los trabajos pioneros de Amari y colaboradores (1992) ya derivaron curvas de aprendizaje tipo potencia según el tipo de algoritmo y la limpieza de los datos. Hestness y colegas (2017) demostraron empíricamente que el error de generalización escala como ley de potencia en datos y tamaño de modelo en traducción automática, visión, modelado de lenguaje y reconocimiento de voz, y que el exponente es una propiedad del dominio, no de la arquitectura. Rosenfeld et al. (2020) extendieron el enfoque modelando el error como función conjunta de N y D.

El punto de inflexión llegó con Kaplan et al. (2020), que formalizaron las leyes para modelos de lenguaje Transformer: la pérdida escala como potencia con N, D y C; los modelos grandes son más eficientes en datos; y conviene entrenarlos grandes y detenerlos antes de converger. También sostienen que sobreajuste depende del cociente N^(α/β)/D, de modo que los datos deben crecer en proporción específica al modelo. El texto continúa con los desacuerdos posteriores —notablemente las leyes de Chinchilla— y cierra con la conclusión de Kaplan de que el tamaño óptimo del modelo crece como N_opt ∝ C^0,73. La guía sirve como referencia para investigadores y profesionales que planifican entrenamientos a gran escala.