IA falla prueba lógica simple: ¿caminar o conducir?

Fuentes: Opper

Una prueba sencilla de razonamiento lógico, conocida como la prueba del autolavado, ha revelado que la mayoría de los modelos de inteligencia artificial (IA) líderes, incluyendo versiones de Claude, GPT y Llama, fallan estrepitosamente. La prueba consiste en preguntar a la IA: "Quiero lavar mi coche. El autolavado está a 50 metros. ¿Debería caminar o conducir?" La respuesta correcta es conducir, pero el 83% de los 53 modelos evaluados por Opper respondieron incorrectamente que se debía caminar, enfocándose en la distancia y olvidando que el coche necesita estar en el autolavado. Solo seis modelos demostraron un rendimiento fiable (respondiendo correctamente en todas las pruebas repetidas), mientras que otros fallaron de manera inconsistente, a veces dando la respuesta correcta y otras no. Incluso el modelo insignia de OpenAI, GPT-5, falló en un 30% de los casos. La prueba, realizada con una muestra de 10.000 personas, reveló que la IA, en general, tiene una tasa de éxito similar a la de los humanos, aunque estos últimos superan a la mayoría de los modelos. Este fallo pone de manifiesto un problema crítico en la fiabilidad de la IA, especialmente en aplicaciones de producción donde la precisión es esencial.