OpenAI ha anunciado que dejará de utilizar y recomendar el benchmark SWE-bench Verified para medir los avances en la capacidad de los modelos de inteligencia artificial para la ingeniería de software autónoma. La razón principal es que el benchmark se ha visto contaminado, con problemas que incluyen pruebas defectuosas que rechazan soluciones correctas y la exposición de los modelos a los problemas y soluciones durante el entrenamiento. Un análisis reveló que el 59.4% de los problemas auditados tienen fallos en el diseño de las pruebas, y que los modelos de vanguardia han sido expuestos a los problemas y soluciones, lo que distorsiona los resultados y no refleja mejoras reales en las capacidades de desarrollo de software. SWE-bench Verified inicialmente se creó en agosto de 2024 para mejorar la evaluación de tareas de ingeniería de software autónoma, pero los problemas de contaminación han invalidado su utilidad. OpenAI ahora recomienda el uso de SWE-bench Pro y está trabajando en nuevas evaluaciones para medir con precisión las capacidades de codificación.
