Noticias que mencionan SWE-bench Verified

IA de código abierto: Step 3.5 Flash desafía a gigantes

Step 3.5 Flash, un nuevo modelo de inteligencia artificial de código abierto, ha sido desarrollado para competir con sistemas propietarios de vanguardia. Este modelo, construido sobre una arquitectura de Mixture of Experts (MoE), utiliza solo 11 mil millones de sus 196 mil millones de parámetros por

LLMs aprueban prueba, pero no siempre sirven al código

Este informe de METR analiza la discrepancia entre los resultados de los modelos de lenguaje grandes (LLMs) en el benchmark SWE-bench Verified y su utilidad real en proyectos de código abierto. SWE-bench Verified es una herramienta para evaluar la capacidad de los LLMs para resolver problemas de pro

LLMs aprueban prueba, pero no siempre sirven al código

Este informe de METR analiza la discrepancia entre los resultados de los modelos de lenguaje grandes (LLMs) en el benchmark SWE-bench Verified y su utilidad real en proyectos de código abierto. SWE-bench Verified es una herramienta para evaluar la capacidad de los LLMs para resolver problemas de pro

IA avanza rápido: informe de Stanford revela tendencias

El informe anual del Índice de IA de Stanford para 2026 revela una aceleración continua en las capacidades de los modelos de IA, impulsada principalmente por empresas estadounidenses como OpenAI y Anthropic, que se preparan para sus próximas ofertas públicas iniciales (IPO). A pesar de este progreso

IA: SWE-bench ya no evalúa código, OpenAI lo abandona

OpenAI ha anunciado que dejará de utilizar y recomendar el benchmark SWE-bench Verified para medir los avances en la capacidad de los modelos de inteligencia artificial para la ingeniería de software autónoma. La razón principal es que el benchmark se ha visto contaminado, con problemas que incluyen

La IA transforma la selección de lenguajes de programación en 2026

La inteligencia artificial está transformando radicalmente la selección de lenguajes de programación en la industria tecnológica. Hace dos años, los modelos de IA apenas podían escribir código en lenguajes complejos como Rust sin errores; para abril de 2026, Claude Opus 4.7, GPT-5.5, Gemini 3.1 y De

Nex-N2-Pro: el modelo abierto de Nex AGI que rivaliza con GPT-5.5 en código

Nex AGI, un laboratorio chino de inteligencia artificial, publicó el 2 de junio de 2026 Nex-N2-Pro, un modelo de código abierto bajo licencia Apache 2.0 orientado a tareas agenticas como programación, uso de herramientas y flujos de trabajo autónomos. Se trata de una arquitectura de Mezcla de Expert