Senior SWE-Bench es un benchmark diseñado para evaluar agentes de ingeniería de software con tareas que reflejan el trabajo real de un ingeniero senior, frente a las instrucciones sobreespecificadas típicas de SWE-Bench y SWE-Bench Pro. Sus tareas proceden de pull requests de repositorios que van desde librerías hasta aplicaciones multiservicio, seleccionadas por ingenieros con cientos de commits en cada proyecto, e incluyen PRs de funcionalidades multi-stack y de corrección de bugs que requieren investigación en tiempo de ejecución.
El benchmark incorpora tres diferenciadores clave. En primer lugar, las instrucciones son un 31 % más cortas que las de SWE-Bench Pro, imitando mensajes en lenguaje natural. En segundo lugar, las tareas de funcionalidades abarcan múltiples servicios, con una media de 11 archivos modificados por tarea. Por último, se trata de tareas de horizonte largo que exigen cientos de pasos incluso a los agentes más avanzados.
La evaluación utiliza un agente de validación con recetas diseñadas por expertos para escribir pruebas de comportamiento adaptadas a cada solución, y puntúa los aciertos combinando pruebas de corrección en tiempo de ejecución con métricas de calidad basadas en buenas prácticas del código.
La leaderboard muestra a Claude Opus 4.8 como modelo más resolutivo, con un 24,0 % de tasa de éxito (pass@1) usando Mini-SWE-Agent en esfuerzo máximo, seguido de Claude Sonnet 5 (19,4 %) y GPT-5.5 (16,0 %). Los autores destacan que los modelos frontier más capaces no superan el 24 % de acierto, lo que evidencia la distancia entre las capacidades actuales y el nivel de un ingeniero senior.
