Hackean Claude Fable 5 de Anthropic en menos de 48 horas mediante jailbreaking

Fuentes: Hackean la nueva IA de Anthropic, inspirada en Mythos, en menos de 48 horas: Claude Fable 5 es víctima del 'jailbreaking'T3clickbait

El usuario Pliny the Liberator ha logrado vulnerar parte de los mecanismos de seguridad de Claude Fable 5, la nueva inteligencia artificial de Anthropic basada en la tecnología Mythos, en menos de 48 horas desde su lanzamiento. Para ello, empleó combinaciones de caracteres Unicode, homoglifos, reformulación de instrucciones, contextos narrativos y una versión modificada de Claude Opus 4.8, según explicó en una publicación en la red social X. Las técnicas de jailbreaking empleadas permitieron obtener respuestas que los sistemas de protección del modelo deberían haber bloqueado.

Anthropic había presentado Fable 5 como su sistema más avanzado para razonamiento, programación y trabajo autónomo, destacando la incorporación de nuevas salvaguardas para evitar usos malintencionados. La compañía sostiene que el modelo integra nuevos sistemas de detección de intentos de jailbreak y bloqueo de usos peligrosos. No obstante, las pruebas de Pliny demuestran que estos mecanismos pueden ser eludidos.

El episodio reaviva el debate sobre la eficacia real de las protecciones en los modelos de IA más avanzados y la falta de transparencia denunciada por desarrolladores tras el lanzamiento, especialmente en investigación en inteligencia artificial y ciberseguridad. Anthropic defiende que Fable 5 representa el equilibrio más avanzado entre capacidad y seguridad, aunque los primeros jailbreaks evidencian que la carrera entre desarrolladores de protecciones y quienes intentan sortearlas sigue abierta.