Una investigación de la firma de seguridad LayerX demuestra que un sitio web malicioso puede engañar al modelo de lenguaje integrado en un navegador con IA para que entre en un estado de "delirio" en el que sus propias barreras de seguridad dejan de aplicarse, lo que abre la puerta a acciones destructivas como extraer código de repositorios privados o credenciales del gestor de contraseñas.
En la prueba de concepto, el sitio presenta al navegador un supuesto juego basado en resolver un puzzle que, deliberadamente, premia las respuestas incorrectas —por ejemplo, acepta que 2 + 2 = 5—. Cuando el modelo detecta que la lógica convencional ya no rige, asume que el contexto es ficticio y, en ese escenario onírico, deja de enforced sus restricciones internas. A partir de ahí, un atacante puede invocarlo para ejecutar operaciones sensibles sin que el sistema las bloquee.
Según Roy Paz, investigador de LayerX y autor del informe publicado el lunes, "la IA opera bajo el supuesto de que su contexto es real y, por tanto, debe ajustar su comportamiento a sus barreras de seguridad. Pero si logramos que cambie su contexto a uno de fantasía —donde las reglas se inventan y todo vale—, actuará como si sus acciones no tuvieran consecuencias reales".
El hallazgo ilustra una limitación estructural de los navegadores con IA: sus desarrolladores prometen autonomía para reservar mesas, redactar correos o ejecutar tareas encadenadas, pero las medidas de protección existentes son reactivas y abordan síntomas en lugar de las causas. Los autores comparan la situación con un fabricante de vehículos inseguros que, en lugar de corregir los defectos, pide nuevos diseños de carretera.
