12 Mar 2026 · Original en inglés · Artículo

LLMs aprueban prueba, pero no siempre sirven al código

Fuentes: Many SWE-bench-Passing PRs Would Not Be Merged into Main

Este informe de METR analiza la discrepancia entre los resultados de los modelos de lenguaje grandes (LLMs) en el benchmark SWE-bench Verified y su utilidad real en proyectos de código abierto. SWE-bench Verified es una herramienta para evaluar la capacidad de los LLMs para resolver problemas de programación. Un puntaje del 60% en este benchmark podría sugerir que un modelo resuelve el 60% de los problemas, pero la realidad es más compleja.

El estudio involucró a 4 desarrolladores (maintainers) de tres repositorios de SWE-bench Verified (scikit-learn, Sphinx y pytest) que revisaron 296 pull requests (PRs) generados por IA. Se compararon estos resultados con los de 47 PRs escritos por humanos que fueron efectivamente aceptados (los llamados “golden patches”). El hallazgo principal es que, en promedio, los maintainers rechazaban aproximadamente el 40% de los PRs generados por IA que pasaban el test automático de SWE-bench. Esto significa que el puntaje del benchmark estaba sobreestimando la utilidad real de los modelos en un 24%.

La razón de esta diferencia no es que los modelos sean inherentemente incapaces de producir código correcto, sino que los benchmarks son entornos controlados y simplificados. Los maintainers evalúan el código en función de factores como la calidad, el cumplimiento de las normas del repositorio, la integración con el código existente y la inclusión de pruebas, aspectos que no se evalúan completamente en el benchmark. Los modelos de IA, al no tener la capacidad de iterar y recibir feedback como un desarrollador humano, no pueden corregir estos problemas.

Este estudio no implica que los benchmarks sean inútiles; son una herramienta valiosa para comparar modelos. Sin embargo, advierte que los resultados de los benchmarks deben interpretarse con cautela y no como una medida definitiva de la capacidad de un modelo para contribuir a proyectos reales de código abierto. Es crucial considerar factores como la calidad del código, la adherencia a las normas del proyecto y la capacidad de integración, que no se reflejan completamente en los puntajes de los benchmarks.

En resumen, el informe destaca la importancia de una evaluación más completa de la utilidad de los LLMs en el desarrollo de software, más allá de los resultados de los benchmarks automatizados, y enfatiza la necesidad de feedback humano y un proceso iterativo para mejorar la calidad del código generado por IA.

Temas

Etiquetas

inteligencia artificial desarrollo de software benchmarking modelos de lenguaje swe-bench verified código abierto pull requests metr claude gpt

Entidades mencionadas

scikit-learn organization

Scikit-learn es una biblioteca para aprendizaje automático de software libre para el lenguaje de programación Python. Incluye varios algoritmos de clasificación, regresión y análisis de grupos entre l

Ver en Wikipedia

maintainers group_movement

SWE-bench software

main location

GitHub organization

GitHub es una forja para alojar proyectos utilizando el sistema de control de versiones Git. Se utiliza principalmente para la creación de código fuente de programas de computadora. El software que op

Ver en Wikipedia

GPT-5 software

GPT-5 es un modelo de lenguaje de gran tamaño desarrollado y alojado por OpenAI. Es su modelo GPT insignia y con capacidades de agente, y fue lanzado el 7 de agosto de 2025. GPT-5 es accesible a travé

Ver en Wikipedia

El País organization

El País es un periódico español fundado en 1976. Se redacta y publica en español, y algunos contenidos en catalán, inglés y portugués. Tiene su sede social y redacción central en Madrid, y cuenta con

Ver en Wikipedia

SWE-bench Verified software

AI-generated pull requests software

core functionality failure event

patch breaks other code event

code quality issues event

golden patches software

SWE-bench scores software

pp/yr software

agent elicitation software

models software

previous blog post creative_work

Claude 3.5 Sonnet software

Claude 3.7 Sonnet software

Claude 4 Opus software

Claude 4.5 Sonnet software

human developer organization

Strengthen your recruitment, keep employees and develop your organization strategically with a certification in the Human Developers Test System.

human developers organization

Strengthen your recruitment, keep employees and develop your organization strategically with a certification in the Human Developers Test System.

metr.org organization

Metro-Goldwyn-Mayer Studios, Inc. es una compañía estadounidense de producción y distribución de películas de cine y programas de televisión, propiedad de Amazon a través de Amazon MGM Studios. Sus pr

Ver en Wikipedia

Sphinx organization

Sphinx es una banda de heavy metal española originaria de Cádiz. Fue formada en 1992 por el cantante Manuel Rodríguez y el batería Carlos Delgado.

Ver en Wikipedia

pytest organization

Pytest es un marco de pruebas de Python que tiene su origen en el proyecto PyPy. Se puede utilizar para escribir varios tipos de pruebas de software, incluyendo pruebas unitarias, pruebas de integraci

Ver en Wikipedia

Epoch organization

Epoch es un telefilme de ciencia ficción estadounidense del 2001 dirigida por Matt Codd y con David Keith y Stephanie Niznik como protagonistas principales.

Ver en Wikipedia

Anthropic organization

Anthropic es una empresa emergente estadounidense de investigación y desarrollo de inteligencia artificial (IA) fundada por exmiembros de OpenAI.

Ver en Wikipedia

The Verge organization

The Verge es un sitio web de noticias de tecnología estadounidense con oficinas en Manhattan, Nueva York y operado por Vox Media. La red divulga noticias, reseñas de productos y podcasts.

Ver en Wikipedia