DeepSWE evalúa con mayor precisión a los agentes de IA en programación
DeepSWE, un nuevo benchmark desarrollado por Wenqi Huang y colegas, busca mejorar la evaluación de agentes de codificación de inteligencia artificial. Este nuevo conjunto de datos aborda las limitaciones de los benchmarks existentes, como la contaminación de datos y la falta de verificación fiable.
