Modelos IA más pequeños logran cálculo complejo

Fuentes: Investigadores reducen el tamaño de los modelos transformer a niveles sin precedentes

Investigadores han logrado reducir significativamente el tamaño de los modelos transformer capaces de realizar la suma de dos números de 10 dígitos con una precisión superior al 99%, un desafío conocido como 'AdderBoard'. Inicialmente, modelos generados por Claude Code y Codex requerían 6.080 y 1.644 parámetros respectivamente. La comunidad ha superado estos números, con el modelo más reciente utilizando tan solo 36 parámetros para lograr el mismo objetivo. El proyecto, liderado por Dimitris Papailiopoulos, rastrea tanto modelos con pesos aprendidos a través de entrenamiento (SGD, Adam, etc.) como aquellos con pesos codificados manualmente, ofreciendo diferentes perspectivas sobre la arquitectura necesaria para representar la adición. El enfoque se centra en la creación de modelos que operen como transformers autoregresivos estándar, donde la lógica de la suma emerge del proceso de predicción de tokens, y no de código específico. La iniciativa busca comprender los límites mínimos de los transformers y fomenta la innovación en formatos de datos, tokenización y arquitecturas. El código y los resultados se comparten públicamente en GitHub, permitiendo a la comunidad contribuir y verificar los avances.