IA: Nuevo test revela quién 'inventa' más información

Fuentes: AI Hallucination Benchmark — Fabrication Rankings

Un nuevo análisis comparativo realizado por BridgeBench.ai ha evaluado la propensión a la "alucinación" en 27 modelos de inteligencia artificial, revelando la frecuencia con la que estos sistemas inventan información falsa al analizar código. La prueba, actualizada el 12 de abril de 2024, se basa en 30 tareas y 175 preguntas, verificadas a través de la ejecución de código y la comparación con datos de referencia. El modelo Claude Opus 4.6 de Anthropic lidera la clasificación, seguido de GPT-5.4 de OpenAI y Qwen 3.6 Plus de OpenRouter. Los modelos Grok de xAI, incluyendo Grok 4 y Grok 3, ocupan posiciones intermedias, mientras que otros modelos como GLM 5 y GPT-4.1 se encuentran más abajo en la lista. El estudio destaca la importancia de evaluar la fiabilidad de los modelos de IA, especialmente en tareas que requieren precisión y veracidad, como el análisis de código. La "alucinación" en IA es un problema creciente que puede llevar a resultados incorrectos y decisiones erróneas, por lo que este tipo de evaluaciones son cruciales para el desarrollo de sistemas más confiables.