DeepSWE evalúa con mayor precisión a los agentes de IA en programación

Fuentes: New DeepSWE Benchmark Aims to Improve Coding Agent Evaluation
DeepSWE evalúa con mayor precisión a los agentes de IA en programación
Imagen generada con IA

DeepSWE, un nuevo benchmark desarrollado por Wenqi Huang y colegas, busca mejorar la evaluación de agentes de codificación de inteligencia artificial. Este nuevo conjunto de datos aborda las limitaciones de los benchmarks existentes, como la contaminación de datos y la falta de verificación fiable. La relevancia radica en que los agentes de IA están ganando terreno en ingeniería de software, pero las métricas actuales no reflejan con precisión su rendimiento en entornos reales. DeepSWE incluye 91 repositorios activos en cinco lenguajes de programación. Sus tareas son originales y no contaminadas, diseñadas con prompts cortos y naturales, similares a la interacción real entre desarrolladores. A pesar de ser instrucciones breves, las soluciones requieren 5,5 veces más código que en benchmarks anteriores. Además, sus verificaciones manuales garantizan una precisión del 98,6%, reduciendo significativamente los errores de calificación en comparación con herramientas existentes.