La empresa de seguridad Blue41, ganadora del RSAC Launch Pad, descubrió una vulnerabilidad de inyección indirecta de prompts en el asistente de inteligencia artificial de bunq, el segundo banco digital de Europa con más de 20 millones de clientes. La prueba de concepto demuestra que un atacante puede ejecutar un ataque de spearphishing creíble enviando una transferencia mínima —en la prueba, de 0,02 euros— e introduciendo instrucciones maliciosas en el campo de descripción de la transacción. Cuando el usuario consulta al asistente sobre sus movimientos, el modelo de lenguaje procesa esas instrucciones como si fueran parte del contexto legítimo y genera una respuesta manipulada que suplanta al banco, por ejemplo una falsa solicitud de reautenticación, dentro de la propia aplicación bancaria.
El ataque no requiere acceso al dispositivo de la víctima, ni malware, ni ingeniería social clásica. Aprovecha un fallo arquitectónico común: los datos no confiables —descripciones de transacciones, mensajes de soporte, documentos cargados o correos— acaban en la ventana de contexto del modelo, que puede interpretarlos como instrucciones en lugar de como datos. Aunque bunq contaba con guardrails, la carga útil estaba diseñada para pasar desapercibida en revisión aislada y solo se volvía dañina al combinarse con la lógica de recuperación, el comportamiento del modelo y las capacidades de salida del asistente.
Blue41 recomienda un modelo de seguridad por capas: minimizar el contexto no necesario, tratar los datos recuperados como no confiables, restringir enlaces y acciones sensibles, y monitorizar el comportamiento del asistente en tiempo de ejecución. La compañía subraya que no existe un control único que elimine el riesgo y que la mitigación eficaz exige separar de forma explícita los datos de las instrucciones en la arquitectura del asistente.
