Un equipo de investigación ha documentado una limitación sistemática en los grandes modelos de lenguaje autorregresivos: la bautizada como "maldición de la inversión". El fenómeno consiste en que, cuando un modelo se entrena con frases del tipo "A es B", no generaliza automáticamente hacia la dirección inversa "B es A", a pesar de que ambas formas coexisten con frecuencia en los datos de entrenamiento. Por ejemplo, un modelo entrenado con la oración "Valentina Tereshkova fue la primera mujer en viajar al espacio" no es capaz de responder correctamente a la pregunta "¿Quién fue la primera mujer en viajar al espacio?", y la probabilidad de asignar el nombre correcto no supera la de un nombre aleatorio.
Para demostrar el fallo, los autores ajustaron GPT-3 y Llama-1 con enunciados ficticios como "Uriah Hawthorne es el compositor de Abyssal Melodies" y comprobaron que ninguno de los modelos acertaba al preguntar "¿Quién compuso Abyssal Melodies?". El defecto se reproduce en distintas familias y tamaños de modelo y no se corrige con técnicas de aumento de datos.
En pruebas con celebridades reales, GPT-4 respondió correctamente al 79 % de preguntas en una dirección y solo al 33 % en la inversa, lo que evidencia la misma asimetría fuera del entorno sintético. No obstante, cuando la relación "A es B" aparece en el contexto (in-context learning), los modelos sí deducen el enunciado inverso, lo que sugiere que la limitación es del aprendizaje por entrenamiento, no de la arquitectura.
El hallazgo, publicado en arXiv con código abierto, tiene implicaciones para la construcción de bases de conocimiento, la edición de memorias en modelos y la evaluación de sus capacidades de razonamiento factual.
