Noticias que mencionan SWE-bench

Agentes de código: ¿archivos de contexto realmente ayudan?

En el mundo del desarrollo de software, los agentes de codificación impulsados por modelos de lenguaje grandes (LLMs) están ganando terreno para automatizar tareas y asistir a los desarrolladores. Una práctica común es personalizar estos agentes para cada repositorio de código utilizando archivos de

Claude: la IA preferida por desarrolladores, ¿por qué?

Desarrolladores están consistentemente optando por Claude de Anthropic sobre alternativas como Gemini y Codex, a pesar de que estas últimas a menudo superan a Claude en las pruebas de rendimiento iniciales. La razón no radica en la inteligencia bruta de los modelos, sino en su capacidad para mantene

Archivos AGENTS.md: ¿Ayudan o perjudican a la IA?

Una reciente investigación de la ETH Zurich cuestiona la práctica común de utilizar archivos AGENTS.md para mejorar el rendimiento de los agentes de codificación con IA. Contrariamente a las recomendaciones de la industria, el estudio, publicado en arXiv, concluye que estos archivos, especialmente l

IA evalúa mantenimiento de código: un nuevo desafío

El campo de la ingeniería de software está experimentando una revolución impulsada por los modelos de lenguaje grandes (LLMs). Estos modelos están demostrando una capacidad sorprendente para automatizar tareas como la corrección de errores en el código. Sin embargo, las evaluaciones existentes, como

Ingeniería de Agentes: 8 Niveles para Mejorar la Programación

Este artículo de Bassim Eledath explora ocho niveles de 'Ingeniería de Agentes', un enfoque para utilizar modelos de lenguaje grandes (LLMs) como asistentes de programación. El objetivo es superar la brecha entre la capacidad de los LLMs y su aplicación práctica en el desarrollo de software, donde a

LLMs aprueban prueba, pero no siempre sirven al código

Este informe de METR analiza la discrepancia entre los resultados de los modelos de lenguaje grandes (LLMs) en el benchmark SWE-bench Verified y su utilidad real en proyectos de código abierto. SWE-bench Verified es una herramienta para evaluar la capacidad de los LLMs para resolver problemas de pro

LLMs aprueban prueba, pero no siempre sirven al código

Este informe de METR analiza la discrepancia entre los resultados de los modelos de lenguaje grandes (LLMs) en el benchmark SWE-bench Verified y su utilidad real en proyectos de código abierto. SWE-bench Verified es una herramienta para evaluar la capacidad de los LLMs para resolver problemas de pro

Evalúan contexto de IA: nueva herramienta para desarrolladores

Un nuevo conjunto de herramientas llamado `mdarena` ha sido lanzado para ayudar a los desarrolladores a evaluar la efectividad de los archivos de contexto (generalmente archivos `CLAUDE.md`) utilizados para guiar a los agentes de inteligencia artificial, como Claude. La herramienta, disponible en Gi

IA: Benchmarks engañosos inflan resultados, revela estudio

Investigadores de la Universidad de California, Berkeley, han descubierto que los principales benchmarks utilizados para evaluar el rendimiento de los agentes de inteligencia artificial (IA) son fácilmente manipulables, lo que genera resultados inflados y engañosos. Un agente automatizado desarrolla

‘Vibe Coding’: IA acelera, pero genera deuda técnica

Una tendencia emergente en el desarrollo de software, denominada "vibe coding", está generando preocupación en las startups. Esta práctica, impulsada por herramientas como Replit Agent y Claude Code, permite a los product managers generar código funcional rápidamente, a menudo sin la intervención de

IA pública revela vulnerabilidades: ¿fin del secreto de Anthropic?

Investigadores de VidocSecurity han replicado los hallazgos de Anthropic sobre la capacidad de modelos de IA avanzados para identificar vulnerabilidades en software, utilizando modelos públicos como GPT-5.4 y Claude Opus 4.6. El estudio cuestiona la narrativa de Anthropic de que estas capacidades so

IA: SWE-bench ya no evalúa código, OpenAI lo abandona

OpenAI ha anunciado que dejará de utilizar y recomendar el benchmark SWE-bench Verified para medir los avances en la capacidad de los modelos de inteligencia artificial para la ingeniería de software autónoma. La razón principal es que el benchmark se ha visto contaminado, con problemas que incluyen