Anthropic lanza Claude Fable 5 y Claude Mythos 5, sus modelos más avanzados

Fuentes: Anthropic launches Claude Fable 5 and Claude Mythos 5, its most capable models yet, wired.com

Anthropic lanzó este martes Claude Fable 5 y Claude Mythos 5, sus modelos de inteligencia artificial más avanzados hasta la fecha, en lo que la compañía describe como un salto cualitativo en capacidades de razonamiento, programación, visión y investigación científica. La doble presentación, realizada de forma conjunta, marca también un nuevo enfoque en la estrategia de despliegue: un mismo modelo base con dos niveles de acceso diferenciados según el perfil del usuario.

Fable 5 es la versión "segura para uso general" del nuevo modelo insignia de Anthropic, clasificado internamente como "Mythos-class". Según la compañía, supera a cualquier modelo anterior de la firma en prácticamente todos los benchmarks de capacidad evaluados, con rendimientos especialmente destacados en ingeniería de software, trabajo de conocimiento, visión por computadora e investigación científica. La propia Anthropic subraya que cuanto más larga y compleja es la tarea, mayor es la ventaja de Fable 5 sobre sus predecesores.

El lanzamiento llega con salvaguardas reforzadas. Anthropic reconoce que, sin controles, las capacidades de Fable 5 en áreas como ciberseguridad podrían ser utilizadas con fines dañinos. Por ello, el modelo incorpora filtros que redirigen ciertas consultas sensibles hacia Claude Opus 4.8, el segundo modelo más capaz de la empresa. Estos filtros, ajustados de forma conservadora, se activan en menos del 5% de las sesiones promedio, aunque pueden rechazar solicitudes legítimas. La compañía aseguró que trabaja para reducir los falsos positivos a medida que lleguen modelos más capaces en los próximos meses.

En paralelo, Anthropic presentó Claude Mythos 5, una versión del mismo modelo base con las salvaguardas levantadas en algunas áreas, reservada inicialmente a un grupo reducido de ciberdefensores y proveedores de infraestructura. Se trata de una actualización de Claude Mythos Preview, desplegada a través del Proyecto Glasswing en colaboración con el Gobierno de Estados Unidos, y que, según Anthropic, posee las capacidades de ciberseguridad más potentes del mundo entre los modelos existentes. La empresa adelantó que ampliará el acceso a Mythos 5 mediante un programa de acceso confiable más amplio en el corto plazo.

Los resultados de las pruebas internas son notables. En ingeniería de software, Stripe reportó que Fable 5 comprimió meses de trabajo en días: completó una migración en una base de código de 50 millones de líneas en Ruby en una jornada, una labor que habría exigido a un equipo humano más de dos meses. En el benchmark FrontierCode de Cognition, Fable 5 obtuvo la puntuación más alta entre los modelos de frontera, incluso con un nivel de esfuerzo medio. En visión, el modelo puede reconstruir el código fuente de una aplicación web a partir de capturas de pantalla, y venció al videojuego Pokémon FireRed con un arnés mínimo basado solo en visión, algo inalcanzable para versiones anteriores de Claude.

En trabajo de conocimiento, Fable 5 lidera el benchmark de finanzas de Hebbia para razonamiento de nivel senior y arrasó en las evaluaciones de IMC para análisis de trading. En memoria y contexto largo, al jugar Slay the Spire, el acceso a memoria persistente mejoró su rendimiento tres veces más que en Opus 4.8, y alcanzó el acto final del juego tres veces más a menudo.

Las capacidades científicas de Mythos 5 también son significativas. En diseño de fármacos, expertos internos de Anthropic aceleraron partes del proceso alrededor de diez veces, y el modelo igualó o superó a operadores humanos en 14 dianas proteicas sin asistencia. En biología molecular, Mythos 5 es descrito como el primer modelo de la compañía que produce hipótesis novedosas de forma consistente: los científicos las prefirieron frente a las de modelos clase Opus en aproximadamente el 80% de las comparaciones ciegas, y una de ellas —un mecanismo novel para una proteína de E. coli— fue corroborada de forma independiente por un laboratorio externo en un estudio publicado en bioRxiv. En genómica, el modelo ejecutó durante más de una semana trabajo autónomo, ensambló datos de célula única de 138 especies animales y entrenó un modelo de aprendizaje automático que superó a uno reciente publicado en Science, siendo 100 veces más pequeño.

En materia de alineamiento, Anthropic reportó que el comportamiento desalineado de Mythos 5 —incluyendo engaño y cooperación con usos indebidos— se mantuvo bajo y similar al de Opus 4.8, según su evaluación automatizada.

El precio también supone un cambio relevante: ambos modelos se ofrecen a 10 dólares por millón de tokens de entrada y 50 por millón de tokens de salida, menos de la mitad de lo que costaba Claude Mythos Preview. Entre los primeros clientes en probar Fable 5, Cursor destacó su rendimiento en CursorBench, mientras que GitHub lo calificó como un avance real para tareas de programación autónoma de largo alcance, augurando un futuro en el que los desarrolladores puedan delegar trabajo cada vez más ambicioso en agentes de IA. Anthropic enmarcó el lanzamiento como un paso más hacia su objetivo de llevar capacidades avanzadas de IA al mayor número posible de usuarios, con la mayor rapidez y seguridad posibles, aunque la dualidad Fable-Mythos evidencia las tensiones crecientes entre apertura, seguridad y competencia geopolítica en el sector.