Un estudio publicado por Kosta Jordanov pone a prueba a los cinco modelos de lenguaje de última generación (LLM) frente a 1.000 afirmaciones verificadas por usuarios reales. Los resultados revelan que el 67% de las veces, los modelos de inteligencia artificial no coinciden en su veredicto sobre si una afirmación es verdadera, mayormente verdadera, engañosa o falsa. Esto indica una falta de consistencia significativa en la interpretación de hechos cotidianos. El análisis, que utiliza una escala de cuatro categorías, muestra que el 34% de los casos implican desacuerdos sustanciales, donde las respuestas difieren en más de un nivel. Aunque existe cierta estructura en las respuestas, la métrica de concordancia Krippendorff's α de 0.639 sugiere que el consenso es limitado. El estudio concluye que, incluso entre los modelos más avanzados, no existe una autoridad única para validar la verdad, y que la mayoría de las veces, al menos un modelo se equivoca. Esto subraya la necesidad de verificar la información generada por estas herramientas antes de confiar en ella.
Modelos de IA no coinciden en los hechos un 67% de las veces
