swe-bench - ojeo.com

04 Jun 2026

La inteligencia artificial acelera su propio desarrollo, según Anthropic

Anthropic ha revelado que la inteligencia artificial (IA) está asumiendo cada vez más tareas en su propio ciclo de desarrollo, un proceso que podría conducir a la mejora recursiva autónoma. Según datos internos de la compañía, más del 80% del código fusionado en sus repositorios en mayo de 2026 fue

02 Jun 2026

Microsoft AI presenta MAI-Code-1-Flash, su nuevo modelo de programación para Copilot

Microsoft AI ha presentado MAI-Code-1-Flash, un nuevo modelo de programación entrenado íntegramente por la compañía con datos limpios y con licencias apropiadas. El modelo está pensado para ofrecer asistencia rápida y eficiente en los flujos de trabajo cotidianos de los desarrolladores, y se está de

30 May 2026

Poolside AI Abre Sus Puertas: Nuevos Modelos Laguna Traen Poder de Codificación Agentic al Mundo de Código Abierto

La familia de modelos de IA Laguna, desarrollada por poolsideai, ha sido lanzada con dos miembros iniciales: Laguna M.1 y Laguna XS.2. Laguna M.1 es un modelo Mixture of Experts (MoE) con 225 mil millones de parámetros totales y 23 mil millones de parámetros activos, entrenado internamente con 30 bi

12 May 2026

Poolside detecta manipulación fraudulenta en benchmark de su modelo de IA

Poolside, empresa de inteligencia artificial, descubrió que su modelo Laguna M.1 obtuvo un salto del 20% en el benchmark SWEBench-Pro, alcanzando aproximadamente el 64% de rendimiento y posicionándose como el mejor entre modelos más grandes y establecidos. El lunes por la mañana, el equipo detectó e

11 Apr 2026

IA: Benchmarks engañosos inflan resultados, revela estudio

Investigadores de la Universidad de California, Berkeley, han descubierto que los principales benchmarks utilizados para evaluar el rendimiento de los agentes de inteligencia artificial (IA) son fácilmente manipulables, lo que genera resultados inflados y engañosos. Un agente automatizado desarrolla