Senior SWE-Bench: un nuevo benchmark para evaluar a agentes de IA como ingenieros senior
Senior SWE-Bench es un benchmark diseñado para evaluar agentes de ingeniería de software con tareas que reflejan el trabajo real de un ingeniero senior, frente a las instrucciones sobreespecificadas típicas de SWE-Bench y SWE-Bench Pro. Sus tareas proceden de pull requests de repositorios que van de
