08 Jun 2026 · Original en inglés · Artículo

Cognition presenta FrontierCode, un benchmark que mide la calidad real del código generado por IA

Fuentes: Introducing FrontierCode

Imagen generada por IA con el prompt: Editorial illustration of a glowing neural network inspecting rows of code on multiple monitors, with a pull-request checklist floating beside it, dark tech aesthetic, blue and amber tones. — Imagen generada con IA

FrontierCode es un nuevo benchmark diseñado por Cognition para evaluar si los modelos de inteligencia artificial son capaces de producir código que un mantenedor humano aceptaría en un repositorio de producción. Frente a pruebas anteriores como SWE-Bench Verified o Pro, que se centran casi exclusivamente en la corrección funcional, FrontierCode introduce el concepto de mergeability: la probabilidad de que una propuesta de cambio sea realmente fusionada en la base de código.

El benchmark se construye a partir de tareas definidas por más de 20 mantenedores de 36 repositorios open source de primer nivel, que dedicaron más de 40 horas por tarea para plasmar los criterios de calidad, estilo y disciplina de alcance que aplican en sus proyectos. Cada tarea es revisada manualmente por un investigador de Cognition, e incorpora un sistema mixto de verificación con tests unitarios, rúbricas y verificadores específicos.

FrontierCode ofrece tres subconjuntos anidados de dificultad creciente: Extended (150 tareas), Main (100) y Diamond (50). Los resultados muestran que incluso los modelos más avanzados están lejos de dominar el estándar: Claude Opus 4.8 alcanza solo un 13,4 % en Diamond, seguido de GPT-5.5 con un 6,3 % y Gemini 3.1 Pro con un 4,7 %. GPT-5.5 destaca además por consumir hasta cuatro veces menos tokens que Opus 4.8.

Según Cognition, FrontierCode reduce en un 81 % la tasa de falsos positivos respecto a SWE-Bench Pro y aporta un entorno de evaluación más robusto y representativo, al triplicar la diversidad de lenguajes y evitar las pistas excesivas presentes en benchmarks previos.

Temas

desarrollo seguridad

Etiquetas

frontiercode cognition swe-bench open source code quality ai benchmarks claude opus 4.8 gpt-5.5 gemini 3.1 pro mergeability

Entidades mencionadas

DeepSWE software

Cognition organization

En la Antigua Roma, a cognitionibus era una de las cuatro oficinas de la cancillería imperial romana que ayudaba al emperador en el ejercicio de su función en temas judiciales.

Ver en Wikipedia

Celery software

GPT-5.5 software

Gemini 3.1 Pro software

SWE-Bench Pro protocol_standard

Kimi K2.6 software

Claude Opus 4.8 software

SWE-Bench Verified protocol_standard

Tomer Nosrati person

Thank you for visiting my profile 😊 My name is Tomer but my friends call me Nusnus (pronounced "Noosnoos"). I am a software engineer and the tech-lead of the pytest-celery plugin.

Martin McKeaveney person

Co-Founder @budibase, software engineer and consultant based in Lisbon. Cloud, web, mobile and no-code development 💻

Budibase software

Uppy software

Merlijn Vos person

Silvia Merlino cuyo nombre completo era Silvia Julia Merlino fue una actriz argentina de cine y televisión que alcanzó la popularidad cuando interpretó el papel de la hija en el exitoso programa de te

Ver en Wikipedia

FrontierCode software

metr organization

El metro es la unidad coherente de longitud del Sistema Internacional de Unidades. Se define como la distancia que recorre la luz en el vacío en un intervalo de 1/299 792 458 segundos.

Ver en Wikipedia

Enlaces

Experiments from METR metr.org