02 Jul 2026 · Original en inglés · Artículo

Senior SWE-Bench: un nuevo benchmark para evaluar a agentes de IA como ingenieros senior

Fuentes: Senior SWE-Bench: a benchmark that evaluates agents like senior engineers

Senior SWE-Bench es un benchmark diseñado para evaluar agentes de ingeniería de software con tareas que reflejan el trabajo real de un ingeniero senior, frente a las instrucciones sobreespecificadas típicas de SWE-Bench y SWE-Bench Pro. Sus tareas proceden de pull requests de repositorios que van desde librerías hasta aplicaciones multiservicio, seleccionadas por ingenieros con cientos de commits en cada proyecto, e incluyen PRs de funcionalidades multi-stack y de corrección de bugs que requieren investigación en tiempo de ejecución.

El benchmark incorpora tres diferenciadores clave. En primer lugar, las instrucciones son un 31 % más cortas que las de SWE-Bench Pro, imitando mensajes en lenguaje natural. En segundo lugar, las tareas de funcionalidades abarcan múltiples servicios, con una media de 11 archivos modificados por tarea. Por último, se trata de tareas de horizonte largo que exigen cientos de pasos incluso a los agentes más avanzados.

La evaluación utiliza un agente de validación con recetas diseñadas por expertos para escribir pruebas de comportamiento adaptadas a cada solución, y puntúa los aciertos combinando pruebas de corrección en tiempo de ejecución con métricas de calidad basadas en buenas prácticas del código.

La leaderboard muestra a Claude Opus 4.8 como modelo más resolutivo, con un 24,0 % de tasa de éxito (pass@1) usando Mini-SWE-Agent en esfuerzo máximo, seguido de Claude Sonnet 5 (19,4 %) y GPT-5.5 (16,0 %). Los autores destacan que los modelos frontier más capaces no superan el 24 % de acierto, lo que evidencia la distancia entre las capacidades actuales y el nivel de un ingeniero senior.

Temas

Etiquetas

ai agents benchmark software engineering evaluation swe-bench claude gpt-5 gemini kimi glm

Entidades mencionadas

mini-swe-agent software

Senior SWE-Bench software

GPT-5.5 software

SWE-bench Pro software

Gemini 3.1 Pro software

Gemini 3.5 Flash software

Kimi K2.6 software

GLM-5.2 software

Claude Opus person

Claude Puel es un exfutbolista francés y actual entrenador. Durante 17 años jugó en el AS Mónaco, club en el cual debutó como entrenador. Actualmente está sin club.

Ver en Wikipedia