FrontierCode es un nuevo benchmark diseñado por Cognition para evaluar si los modelos de inteligencia artificial son capaces de producir código que un mantenedor humano aceptaría en un repositorio de producción. Frente a pruebas anteriores como SWE-Bench Verified o Pro, que se centran casi exclusivamente en la corrección funcional, FrontierCode introduce el concepto de mergeability: la probabilidad de que una propuesta de cambio sea realmente fusionada en la base de código.
El benchmark se construye a partir de tareas definidas por más de 20 mantenedores de 36 repositorios open source de primer nivel, que dedicaron más de 40 horas por tarea para plasmar los criterios de calidad, estilo y disciplina de alcance que aplican en sus proyectos. Cada tarea es revisada manualmente por un investigador de Cognition, e incorpora un sistema mixto de verificación con tests unitarios, rúbricas y verificadores específicos.
FrontierCode ofrece tres subconjuntos anidados de dificultad creciente: Extended (150 tareas), Main (100) y Diamond (50). Los resultados muestran que incluso los modelos más avanzados están lejos de dominar el estándar: Claude Opus 4.8 alcanza solo un 13,4 % en Diamond, seguido de GPT-5.5 con un 6,3 % y Gemini 3.1 Pro con un 4,7 %. GPT-5.5 destaca además por consumir hasta cuatro veces menos tokens que Opus 4.8.
Según Cognition, FrontierCode reduce en un 81 % la tasa de falsos positivos respecto a SWE-Bench Pro y aporta un entorno de evaluación más robusto y representativo, al triplicar la diversidad de lenguajes y evitar las pistas excesivas presentes en benchmarks previos.
