23 Jun 2026 · Original en inglés · Artículo

Un programador somete a prueba el detector de bugs Mythos de Anthropic con un benchmark propio

Fuentes: Will It Mythos?

Un desarrollador independiente ha creado un benchmark de código abierto para medir si el modelo Mythos de Anthropic, presentado como una herramienta especialmente eficaz para localizar vulnerabilidades de seguridad, es realmente superior al resto de modelos del mercado o si su reputación responde más al marketing de la compañía.

El proyecto parte de Nelson, una herramienta de automatización de búsqueda de fallos que el autor ya utilizaba en sus propios desarrollos. A partir de ella, y con ayuda de Claude Opus, construyó una suite de evaluación que reúne nueve vulnerabilidades reales documentadas por el propio equipo rojo de Anthropic. Cada bug fue verificado con Opus para confirmar que un modelo de primer nivel puede identificarlo cuando se le señala directamente, y se eligieron fallos posteriores a la fecha de corte de conocimiento de los modelos evaluados, de modo que ninguno pudiera “recordar” la respuesta.

Los modelos probados reciben el archivo afectado y un conjunto básico de herramientas dentro de un contenedor limpio, sin acceso al historial de Git y con la instrucción de auditar el código como lo haría cualquier revisor humano. Los autores del benchmark reconocen limitaciones importantes: solo se ejecutó una pasada por modelo y por bug, los resultados son escasos y todavía no se ha explorado el efecto de ofrecer varios intentos. Aun así, los datos publicados muestran que ningún modelo alcanza el nivel atribuido a Mythos y que todos rindieron peor de lo esperado.

El autor también probó cada modelo dentro de un agente completo con su CLI preferido, pero esa configuración no mejoró los resultados y disparó el coste y el tiempo, por lo que fue descartada salvo en el caso de los modelos de Anthropic ejecutados en Claude Code. La excepción más llamativa fue el agente Antigravity de Google para Gemini, que rechazó la petición en ocho de los nueve casos aduciendo que no puede analizar código en busca de vulnerabilidades explotables, lo que llevó a excluirlo de la clasificación final.

En las tablas actualizadas hasta junio de 2026, GPT 5.5 Pro lidera la clasificación de forma engañosa, ya que agotó 100 dólares tras completar solo cuatro casos. Las incorporaciones más recientes —Gemma 4 MoE, GLM 5.2, Kimi K2.7-code y VibeThinker 3B— aportan datos adicionales: Gemma 4 MoE detectó 4 de 9 vulnerabilidades con una precisión del 100%, igualando a MiMo y GPT 5.5 y superando a los modelos comerciales de Google, aunque con la salvedad de que obtuvo varios intentos por caídas del servidor. El modelo más pequeño del conjunto, VibeThinker 3B, no logró ninguna detección, confirmando que la tarea exige una escala mínima considerable.

Temas

ia empresas

Etiquetas

anthropic mythos claude opus claude code gemini gpt-5 security research vulnerability detection benchmark nelson

Entidades mencionadas

Claude Opus software

llama-server software

GitHub organization

GitHub es una plataforma en línea utilizada para alojar y gestionar proyectos de software, incluyendo el código fuente de Secluso, la startup de privacidad que ha lanzado un sistema de seguridad para

Ver en Wikipedia

Mythos software

MiMo software

GLM 5.2 software

Claude Code software

Claude Monet fue un pintor francés, uno de los creadores del impresionismo. El término impresionismo deriva del título de su obra Impresión, sol naciente (1872).

Antigravity software

Google organization

Google es una empresa de tecnología multinacional con sede en California, conocida por sus servicios de búsqueda, publicidad en línea y, según el artículo, por sus comités de contratación que evalúan

Ver en Wikipedia

Nelson software

Gemma 4 MoE software

Kimi K2.7-code software

VibeThinker 3B software

Gemini software

Gemini, conocido anteriormente como Google Bard, es un bot conversacional de inteligencia artificial multimodal y generativa desarrollado por Google basado en la familia Gemini Pro. Se desarrolló como

GPT 5.5 Pro software

Anthropic organization

Anthropic es una empresa estadounidense de investigación en IA fundada por exmiembros de OpenAI. La noticia cuestiona las afirmaciones de Anthropic sobre la capacidad de sus modelos para reparar vulne

Ver en Wikipedia

Enlaces

Nelson github.com

documentation red.anthropic.com

The details of the bugs in the current corpus are here. github.com