26 Apr 2026 · Original en inglés · Resumen IA

IA: SWE-bench ya no evalúa código, OpenAI lo abandona

Fuentes: Why SWE-bench Verified no longer measures frontier coding capabilities

OpenAI ha anunciado que dejará de utilizar y recomendar el benchmark SWE-bench Verified para medir los avances en la capacidad de los modelos de inteligencia artificial para la ingeniería de software autónoma. La razón principal es que el benchmark se ha visto contaminado, con problemas que incluyen pruebas defectuosas que rechazan soluciones correctas y la exposición de los modelos a los problemas y soluciones durante el entrenamiento. Un análisis reveló que el 59.4% de los problemas auditados tienen fallos en el diseño de las pruebas, y que los modelos de vanguardia han sido expuestos a los problemas y soluciones, lo que distorsiona los resultados y no refleja mejoras reales en las capacidades de desarrollo de software. SWE-bench Verified inicialmente se creó en agosto de 2024 para mejorar la evaluación de tareas de ingeniería de software autónoma, pero los problemas de contaminación han invalidado su utilidad. OpenAI ahora recomienda el uso de SWE-bench Pro y está trabajando en nuevas evaluaciones para medir con precisión las capacidades de codificación.

Temas

ia empresas

Etiquetas

openai swe-bench verified inteligencia artificial ingenería de software benchmark gpt modelos de lenguaje pruebas de software

Entidades mencionadas

SWE-bench Verified software

SWE-bench Pro software

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

SWE-bench dataset software

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Preparedness Framework regulation

Linux software

GNU/Linux es una familia de sistemas operativos tipo Unix compuesto por software libre y de código abierto. GNU/Linux surge de las contribuciones de varios proyectos de software, entre los cuales dest

Ver en Wikipedia

Windows software

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

GitHub organization

GitHub es una forja para alojar proyectos utilizando el sistema de control de versiones Git. Se utiliza principalmente para la creación de código fuente de programas de computadora. El software que op

Ver en Wikipedia

SWE-bench software

OpenAI o3 software