04 Jun 2026 · Original en inglés · Resumen IA

Investigador gasta 1.500 dólares probando 12 LLMs en app vulnerable

Fuentes: I built a vulnerable app and spent $1,500 seeing if LLMs could hack it

Imagen generada por IA con el prompt: A split-screen digital illustration: left side a smartphone showing a book review interface with a padlock icon, right side a glowing database symbol with a robotic hand reaching for it, abstract tech background. — Imagen generada con IA

Un investigador de seguridad informática creó una aplicación de reseñas de libros deliberadamente vulnerable y gastó 1.500 dólares para comprobar si los modelos de lenguaje grandes (LLM) podían explotarla. La aplicación, construida con React Native (Expo) y un backend en Python (FastAPI), almacenaba datos en Firebase Firestore. Aunque la API estaba bien protegida, el acceso directo a Firebase quedó abierto, un error común en aplicaciones reales. El objetivo era obtener una 'flag' oculta en las reseñas privadas de un usuario. Se probaron 12 modelos diferentes con hasta diez intentos cada uno (cinco con éxito limitado). Los resultados mostraron que GPT 5.5 resolvió el desafío en siete de diez rondas, seguido de DeepSeek V4 Pro con tres aciertos. Claude Sonnet 4.6 y Opus 4.8 lograron dos éxitos cada uno, pero varios modelos, como Gemini 3.1 Pro, MiniMax M2.7 y Step 3.7 Flash, no consiguieron ningún éxito. Los modelos chinos, como DeepSeek, se mostraron más dispuestos a atacar la base de datos directamente, mientras que otros se detuvieron por límites de seguridad o presupuesto. El investigador advirtió que el experimento no fue científico, sino una exploración personal, y destacó la dificultad de configurar el entorno de pruebas. Las lecciones incluyen evitar ciertos proveedores y la necesidad de herramientas más estandarizadas para este tipo de evaluaciones.

Etiquetas

security research large language model firebase vulnerability assessment penetration testing gpt 5.5 deepseek v4 claude

Entidades mencionadas

Kasra person

Los ḥarakāt son signos diacríticos que se utilizan para vocalizar la escritura árabe e indicar sonidos que de otra forma no se verían representados en este alfabeto consonántico.

Ver en Wikipedia

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

Anthropic organization

Anthropic es una empresa estadounidense de investigación en IA fundada por exmiembros de OpenAI. La noticia cuestiona las afirmaciones de Anthropic sobre la capacidad de sus modelos para reparar vulne

Ver en Wikipedia

Google organization

Google es una empresa de tecnología multinacional con sede en California, conocida por sus servicios de búsqueda, publicidad en línea y, según el artículo, por sus comités de contratación que evalúan

Ver en Wikipedia

DeepSeek organization

DeepSeek es una empresa china de inteligencia artificial que desarrolla modelos extensos de lenguaje (LLM) de código abierto. Tiene sede en Hangzhou, Zhejiang, es propiedad y está financiada exclusiva

Ver en Wikipedia

Firebase software

FastAPI software

Enlaces

here’s a ZIP of the APK and challenge description course-files.kasra.codes