23 Jun 2026 · Original en inglés · Artículo

La maldición de la inversión: los LLM no generalizan relaciones bidireccionales

Fuentes: The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"

Un estudio de investigación identifica una limitación estructural de los modelos de lenguaje autorregresivos (LLM), bautizada como la «maldición de la inversión». El fenómeno consiste en que, cuando un modelo se entrena con una frase del tipo «A es B», no generaliza automáticamente a la forma inversa «B es A», pese a que ambas direcciones aparecen con frecuencia en los datos de entrenamiento.

Para demostrarlo, los autores realizaron un experimento controlado: afinaron GPT-3 y Llama-1 con oraciones ficticias como «Uriah Hawthorne es el compositor de Abyssal Melodies» y comprobaron que, al preguntarles «¿Quién compuso Abyssal Melodies?», el modelo no asignaba mayor probabilidad a la respuesta correcta que a un nombre aleatorio. La limitación se mantiene estable al variar el tamaño y la familia del modelo, y el aumento de datos no la corrige.

En una segunda prueba con datos reales, evaluaron ChatGPT (GPT-3.5 y GPT-4) sobre celebridades. GPT-4 respondió correctamente al 79 % de preguntas del tipo «¿Quién es la madre de Tom Cruise?», pero solo al 33 % de la formulación inversa «¿Quién es el hijo de Mary Lee Pfeiffer?». El trabajo señala que el problema desaparece cuando la relación aparece dentro del contexto inmediato (in-context learning), lo que sugiere que la limitación es específica del proceso de entrenamiento y no de la arquitectura en sentido estricto.

Los autores, liderados por Owain Evans, sostienen que estos resultados cuestionan la idea de que los LLM aprenden verdaderas representaciones del conocimiento y abren una línea de debate sobre cómo lograr que integren de forma simétrica la información textual.

Temas

ciencia y salud ia

Etiquetas

llm reversal curse gpt-3 llama-1 gpt-4 chatgpt machine learning arxiv owain evans

Enlaces

this https URL github.com