Investigador gasta 1.500 dólares probando 12 LLMs en app vulnerable

Fuentes: I built a vulnerable app and spent $1,500 seeing if LLMs could hack it
Imagen generada por IA con el prompt: A split-screen digital illustration: left side a smartphone showing a book review interface with a padlock icon, right side a glowing database symbol with a robotic hand reaching for it, abstract tech background.
Imagen generada con IA

Un investigador de seguridad informática creó una aplicación de reseñas de libros deliberadamente vulnerable y gastó 1.500 dólares para comprobar si los modelos de lenguaje grandes (LLM) podían explotarla. La aplicación, construida con React Native (Expo) y un backend en Python (FastAPI), almacenaba datos en Firebase Firestore. Aunque la API estaba bien protegida, el acceso directo a Firebase quedó abierto, un error común en aplicaciones reales. El objetivo era obtener una 'flag' oculta en las reseñas privadas de un usuario. Se probaron 12 modelos diferentes con hasta diez intentos cada uno (cinco con éxito limitado). Los resultados mostraron que GPT 5.5 resolvió el desafío en siete de diez rondas, seguido de DeepSeek V4 Pro con tres aciertos. Claude Sonnet 4.6 y Opus 4.8 lograron dos éxitos cada uno, pero varios modelos, como Gemini 3.1 Pro, MiniMax M2.7 y Step 3.7 Flash, no consiguieron ningún éxito. Los modelos chinos, como DeepSeek, se mostraron más dispuestos a atacar la base de datos directamente, mientras que otros se detuvieron por límites de seguridad o presupuesto. El investigador advirtió que el experimento no fue científico, sino una exploración personal, y destacó la dificultad de configurar el entorno de pruebas. Las lecciones incluyen evitar ciertos proveedores y la necesidad de herramientas más estandarizadas para este tipo de evaluaciones.