SWE-bench
software · 6 menciones
Noticias que mencionan SWE-bench
LLMs aprueban prueba, pero no siempre sirven al código
Este informe de METR analiza la discrepancia entre los resultados de los modelos de lenguaje grandes (LLMs) en el benchmark SWE-bench Verified y su utilidad real en proyectos de código abierto. SWE-bench Verified es una herramienta para evaluar la capacidad de los LLMs para resolver problemas de pro
Ingeniería de Agentes: 8 Niveles para Mejorar la Programación
Este artículo de Bassim Eledath explora ocho niveles de 'Ingeniería de Agentes', un enfoque para utilizar modelos de lenguaje grandes (LLMs) como asistentes de programación. El objetivo es superar la brecha entre la capacidad de los LLMs y su aplicación práctica en el desarrollo de software, donde a
Archivos AGENTS.md: ¿Ayudan o perjudican a la IA?
Una reciente investigación de la ETH Zurich cuestiona la práctica común de utilizar archivos AGENTS.md para mejorar el rendimiento de los agentes de codificación con IA. Contrariamente a las recomendaciones de la industria, el estudio, publicado en arXiv, concluye que estos archivos, especialmente l
IA evalúa mantenimiento de código: un nuevo desafío
El campo de la ingeniería de software está experimentando una revolución impulsada por los modelos de lenguaje grandes (LLMs). Estos modelos están demostrando una capacidad sorprendente para automatizar tareas como la corrección de errores en el código. Sin embargo, las evaluaciones existentes, como
Agentes de código: ¿archivos de contexto realmente ayudan?
En el mundo del desarrollo de software, los agentes de codificación impulsados por modelos de lenguaje grandes (LLMs) están ganando terreno para automatizar tareas y asistir a los desarrolladores. Una práctica común es personalizar estos agentes para cada repositorio de código utilizando archivos de
