Un desarrollador independiente ha creado un benchmark de código abierto para medir si el modelo Mythos de Anthropic, presentado como una herramienta especialmente eficaz para localizar vulnerabilidades de seguridad, es realmente superior al resto de modelos del mercado o si su reputación responde más al marketing de la compañía.
El proyecto parte de Nelson, una herramienta de automatización de búsqueda de fallos que el autor ya utilizaba en sus propios desarrollos. A partir de ella, y con ayuda de Claude Opus, construyó una suite de evaluación que reúne nueve vulnerabilidades reales documentadas por el propio equipo rojo de Anthropic. Cada bug fue verificado con Opus para confirmar que un modelo de primer nivel puede identificarlo cuando se le señala directamente, y se eligieron fallos posteriores a la fecha de corte de conocimiento de los modelos evaluados, de modo que ninguno pudiera “recordar” la respuesta.
Los modelos probados reciben el archivo afectado y un conjunto básico de herramientas dentro de un contenedor limpio, sin acceso al historial de Git y con la instrucción de auditar el código como lo haría cualquier revisor humano. Los autores del benchmark reconocen limitaciones importantes: solo se ejecutó una pasada por modelo y por bug, los resultados son escasos y todavía no se ha explorado el efecto de ofrecer varios intentos. Aun así, los datos publicados muestran que ningún modelo alcanza el nivel atribuido a Mythos y que todos rindieron peor de lo esperado.
El autor también probó cada modelo dentro de un agente completo con su CLI preferido, pero esa configuración no mejoró los resultados y disparó el coste y el tiempo, por lo que fue descartada salvo en el caso de los modelos de Anthropic ejecutados en Claude Code. La excepción más llamativa fue el agente Antigravity de Google para Gemini, que rechazó la petición en ocho de los nueve casos aduciendo que no puede analizar código en busca de vulnerabilidades explotables, lo que llevó a excluirlo de la clasificación final.
En las tablas actualizadas hasta junio de 2026, GPT 5.5 Pro lidera la clasificación de forma engañosa, ya que agotó 100 dólares tras completar solo cuatro casos. Las incorporaciones más recientes —Gemma 4 MoE, GLM 5.2, Kimi K2.7-code y VibeThinker 3B— aportan datos adicionales: Gemma 4 MoE detectó 4 de 9 vulnerabilidades con una precisión del 100%, igualando a MiMo y GPT 5.5 y superando a los modelos comerciales de Google, aunque con la salvedad de que obtuvo varios intentos por caídas del servidor. El modelo más pequeño del conjunto, VibeThinker 3B, no logró ninguna detección, confirmando que la tarea exige una escala mínima considerable.
