Investigadores de Facebook AI (Meta) han publicado dos nuevos métodos que separan el tamaño del modelo y la potencia computacional en el aprendizaje profundo, desafiando la práctica común de considerarlos como una sola entidad. El primer método, basado en capas de hash, permite aumentar el tamaño del modelo sin incrementar el uso de recursos computacionales, mejorando su rendimiento. El segundo método, que introduce una familia de modelos de atención escalonada (Staircase), permite aumentar la potencia computacional sin agregar nuevos parámetros, también con resultados positivos. Tradicionalmente, el crecimiento de los modelos de lenguaje se ha centrado en aumentar el número de parámetros, lo que conlleva un mayor costo computacional. Estas nuevas técnicas ofrecen una alternativa, permitiendo optimizar el uso de recursos y potencialmente crear modelos más eficientes. La combinación de ambos enfoques (capas de hash y modelos escalonados) ha demostrado ser aún más efectiva, proporcionando un control más preciso sobre el tamaño y la potencia de cálculo. El trabajo sugiere una nueva forma de pensar sobre el diseño de modelos de aprendizaje profundo, enfocándose en la independencia entre parámetros y computación para lograr un mejor rendimiento.
