27 May 2026 · Original en inglés · Resumen IA

DeepSWE evalúa con mayor precisión a los agentes de IA en programación

Fuentes: New DeepSWE Benchmark Aims to Improve Coding Agent Evaluation

DeepSWE, un nuevo benchmark desarrollado por Wenqi Huang y colegas, busca mejorar la evaluación de agentes de codificación de inteligencia artificial. Este nuevo conjunto de datos aborda las limitaciones de los benchmarks existentes, como la contaminación de datos y la falta de verificación fiable. La relevancia radica en que los agentes de IA están ganando terreno en ingeniería de software, pero las métricas actuales no reflejan con precisión su rendimiento en entornos reales. DeepSWE incluye 91 repositorios activos en cinco lenguajes de programación. Sus tareas son originales y no contaminadas, diseñadas con prompts cortos y naturales, similares a la interacción real entre desarrolladores. A pesar de ser instrucciones breves, las soluciones requieren 5,5 veces más código que en benchmarks anteriores. Además, sus verificaciones manuales garantizan una precisión del 98,6%, reduciendo significativamente los errores de calificación en comparación con herramientas existentes.

Temas

ia desarrollo seguridad

Etiquetas

benchmark software inteligencia artificial desarrollo de software evaluación open source python rust typescript go verificación

Entidades mencionadas

DeepSWE software

Wenqi Huang person

Huang Wensi es una boxeadora y maestra china, conocida por luchar contra los estereotipos de las mujeres tradicionales y por luchar contra la depresión, además de haber sido incluida en la lista de la

Ver en Wikipedia

Charley Lee person

Charles Marc Hervé Perceval Leclerc es un piloto de automovilismo monegasco. Fue campeón de la Copa Mundial de Karting en 2011, y de GP3 Series en 2016 y del Campeonato de Fórmula 2 de la FIA en 2017,

Ver en Wikipedia

Leonard Tng person

Leonard Simon Nimoy fue un actor estadounidense, conocido por interpretar al Sr. Spock en la franquicia de Star Trek durante casi 50 años.

Ver en Wikipedia

Serena Ge person

Serena Jameka Williams es una extenista estadounidense ganadora de 23 títulos individuales en torneos Grand Slam, con la hazaña de haber conquistado los 4 majors de manera consecutiva en dos períodos

Ver en Wikipedia

SWE-bench Pro software

Scale person

Macalda de Scaletta fue una dama de honor y cortesana siciliana que vivió en la época de las Vísperas sicilianas y la guerra posterior. Baronesa de Ficarra por matrimonio, hija de Giovanni de Scaletta

Ver en Wikipedia

GitHub organization

GitHub es una plataforma en línea utilizada para alojar y gestionar proyectos de software, incluyendo el código fuente de Secluso, la startup de privacidad que ha lanzado un sistema de seguridad para

Ver en Wikipedia

Anthropic organization

Anthropic es una empresa estadounidense de investigación en IA fundada por exmiembros de OpenAI. La noticia cuestiona las afirmaciones de Anthropic sobre la capacidad de sus modelos para reparar vulne

Ver en Wikipedia

Claude Opus 4 software

mini-swe-agent software

TypeScript software

TypeScript es un lenguaje de programación libre y de código abierto desarrollado y mantenido por Microsoft. Es un superconjunto de JavaScript, que esencialmente añade tipos estáticos y objetos basados

Ver en Wikipedia

Go software

El go es un juego de tablero de estrategia para dos personas, que se originó en China hace más de 2500 años. Fue considerado una de las cuatro artes esenciales de la antigüedad china. Los textos más a

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

JavaScript software

JavaScript es un lenguaje de programación interpretado, dialecto del estándar ECMAScript. Se define como orientado a objetos, basado en prototipos, imperativo, débilmente tipado y dinámico.

Ver en Wikipedia

Rust software

Rust es un lenguaje de programación compilado, de propósito general y multiparadigma que está siendo desarrollado por Fundación Rust. Es un lenguaje de programación multiparadigmático que soporta prog

Ver en Wikipedia

Enlaces

SWE-bench Pro labs.scale.com

benchmark contamination www.anthropic.com

mini-swe-agent github.com

should not modify the testing logic or any of the tests github.com

scaleapi/SWE-bench_Pro-os#93 github.com