Este artículo de investigación, titulado "Evolución Convergente: Cómo Diferentes Modelos de Lenguaje Aprenden Representaciones Numéricas Similares", explora un fenómeno fascinante en el campo del procesamiento del lenguaje natural: la forma en que distintos modelos de lenguaje, incluso aquellos con arquitecturas y métodos de entrenamiento muy diferentes, terminan aprendiendo a representar los números de manera sorprendentemente similar.
En esencia, los modelos de lenguaje (como Transformers, RNNs, LSTMs y modelos de embeddings de palabras) entrenados con texto natural desarrollan patrones internos para representar números. Estos patrones se manifiestan como “picos” periódicos en el dominio de Fourier, con periodos dominantes en T=2, 5 y 10. Esto significa que el modelo “ve” patrones repetitivos en la forma en que los números aparecen en el texto. Lo interesante es que no todos los modelos aprenden la misma profundidad de representación. Algunos desarrollan lo que los autores llaman “características geométricamente separables”, que permiten clasificar un número módulo T (es decir, el residuo de la división por T) de forma lineal.
El estudio profundiza en por qué algunos modelos logran esta separación geométrica y otros no. Los autores demuestran que la presencia de estos picos de Fourier es necesaria, pero no suficiente, para lograr la separación geométrica. Identifican que factores como los datos de entrenamiento, la arquitectura del modelo, el optimizador utilizado y el tokenizador (la forma en que el texto se divide en unidades más pequeñas) juegan un papel crucial.
Se descubrió que los modelos pueden adquirir estas características separables a través de dos rutas principales: 1) aprendiendo de patrones de co-ocurrencia en el lenguaje general, incluyendo la frecuencia con la que los números aparecen junto a palabras y la interacción entre diferentes números, o 2) resolviendo problemas de suma que involucran múltiples tokens (palabras o subpalabras).
El hallazgo clave es que estos modelos, a pesar de sus diferencias, están convergiendo hacia soluciones similares. Esto se describe como “evolución convergente”, un concepto biológico donde organismos no relacionados desarrollan características similares debido a presiones ambientales o funcionales. En este caso, la “presión” es la necesidad de comprender y representar los números dentro del contexto del lenguaje natural. Este trabajo tiene implicaciones importantes para entender cómo los modelos de lenguaje adquieren conocimiento y cómo podemos diseñar arquitecturas más eficientes y robustas.
