El ataque Fable 5 revela los límites de la seguridad en IA

Fuentes: Fable 5 Jailbreak: Why AI Guardrails Are Not Enough

El investigador de seguridad Pliny the Liberator afirmó haber eludido los controles del modelo Claude Fable 5 de Anthropic utilizando una estrategia multiagente. La técnica central fue la descomposición: dividir un objetivo prohibido en subtareas aparentemente inofensivas que, una vez recombinadas, lograban el resultado restringido. El ataque también empleó manipulación Unicode, marcos académicos ficticios y clasificación de intenciones inconsistente. Aunque las afirmaciones requieren validación independiente, el caso evidencia que los filtros a nivel de instrucción individual son insuficientes en sistemas de IA agentivos. El riesgo real reside en la combinación de múltiples pasos a través de agentes, herramientas y memoria compartida. Para las empresas de IA, la seguridad debe pasar de evaluar rechazos de consultas a probar cadenas de ataque completas en el flujo de trabajo.