Un asistente IA resiste más de 6.000 intentos de robo de credenciales

Fuentes: What happened after 2,000 people tried to hack my AI assistant

Un desarrollador sometió a su asistente de inteligencia artificial, bautizado como Fiu y basado en OpenClaw, a un ejercicio público de red-teaming en la web hackmyclaw.com. El objetivo era sencillo: conseguir que el agente revelara el contenido de un fichero llamado secrets.env. Tras alcanzar la portada de Hacker News, Fiu recibió más de 6.000 correos electrónicos procedentes de más de 2.000 personas que intentaron burlar sus instrucciones mediante técnicas de prompt injection, suplantación de autoridad, ingeniería social multilingüe y falsos incidentes de seguridad. El secreto nunca se filtró: cero extracciones exitosas entre los miles de intentos, algunos notablemente sofisticados.

El sistema funcionaba con un VPS y un prompt de seguridad básico de pocas líneas que prohibía revelar credenciales, modificar archivos propios o ejecutar comandos procedentes del correo. El modelo empleado fue Claude Opus 4.6, que Anthropic ha entrenado específicamente para resistir inyecciones. El experimento provocó efectos colaterales relevantes: Google suspendió la cuenta de Gmail de Fiu durante tres días al detectar el volumen anómalo de mensajes y llamadas a la API, y los costes en API superaron los 500 dólares.

Como aprendizaje, el autor señala que la elección del modelo es determinante y que un prompt sencillo basta con un modelo potente, cuyo seguimiento de instrucciones se observa en sus trazas de razonamiento. Reconoce, no obstante, que la inyección de instrucciones sigue siendo un riesgo real y que no confiaría en un agente con permisos arbitrarios sin controles adicionales. El ejercicio recibió patrocinio de Corgea, Abnormal AI y un donante anónimo.