Un estudio de investigación identifica una limitación estructural de los modelos de lenguaje autorregresivos (LLM), bautizada como la «maldición de la inversión». El fenómeno consiste en que, cuando un modelo se entrena con una frase del tipo «A es B», no generaliza automáticamente a la forma inversa «B es A», pese a que ambas direcciones aparecen con frecuencia en los datos de entrenamiento.
Para demostrarlo, los autores realizaron un experimento controlado: afinaron GPT-3 y Llama-1 con oraciones ficticias como «Uriah Hawthorne es el compositor de Abyssal Melodies» y comprobaron que, al preguntarles «¿Quién compuso Abyssal Melodies?», el modelo no asignaba mayor probabilidad a la respuesta correcta que a un nombre aleatorio. La limitación se mantiene estable al variar el tamaño y la familia del modelo, y el aumento de datos no la corrige.
En una segunda prueba con datos reales, evaluaron ChatGPT (GPT-3.5 y GPT-4) sobre celebridades. GPT-4 respondió correctamente al 79 % de preguntas del tipo «¿Quién es la madre de Tom Cruise?», pero solo al 33 % de la formulación inversa «¿Quién es el hijo de Mary Lee Pfeiffer?». El trabajo señala que el problema desaparece cuando la relación aparece dentro del contexto inmediato (in-context learning), lo que sugiere que la limitación es específica del proceso de entrenamiento y no de la arquitectura en sentido estricto.
Los autores, liderados por Owain Evans, sostienen que estos resultados cuestionan la idea de que los LLM aprenden verdaderas representaciones del conocimiento y abren una línea de debate sobre cómo lograr que integren de forma simétrica la información textual.
