Investigadores han formalizado la 'Hipótesis de Representación Lineal' (LRH) para comprender mejor el funcionamiento interno de los grandes modelos de lenguaje (LLMs). La LRH sugiere que conceptos como género o tiempo verbal se representan de manera lineal en el espacio de incrustación de las palabras, lo que facilita la interpretación y manipulación de estos modelos. El estudio, publicado en arXiv, utiliza un modelo simplificado de LLM que distingue entre un espacio de incrustación (donde se procesa la información) y un espacio de desincrustación (donde se generan las salidas). Se ha verificado empíricamente en Llama 2, encontrando que conceptos como 'presente' a 'pasado' o 'inglés' a 'francés' se representan de forma lineal.
Un desafío es la limitación de la dimensionalidad de estos espacios, lo que podría llevar a interferencias entre conceptos. Para abordar esto, se introduce el concepto de 'superposición', donde la no linealidad en el modelo permite gestionar estas interferencias de manera productiva. Los investigadores observan que, en condiciones específicas, los vectores de incrustación aprendidos por el modelo forman estructuras geométricas regulares, lo que sugiere una organización subyacente en la representación del lenguaje. En conjunto, estos hallazgos ofrecen una base teórica para comprender cómo los LLMs capturan la complejidad del lenguaje y la inteligencia.
