Investigadores descubren ataque que evade seguridad en sistemas LLM

Fuentes: Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems
Investigadores descubren ataque que evade seguridad en sistemas LLM
Imagen generada con IA

Este artículo de investigación revela una vulnerabilidad crítica en los sistemas de seguridad diseñados para proteger agentes LLM (Large Language Models). Los autores demuestran que los actuales detectores de inyección de prompts, usados para defender estos sistemas, fallan estrepitosamente cuando las cargas útiles maliciosas adoptan el vocabulario y la estructura de autoridad del documento que intentan manipular.

Los investigadores crearon un nuevo tipo de ataque denominado «inyección camuflada por dominio» (domain-camouflaged injection). A diferencia de los ataques de inyección tradicionales que usan instrucciones genéricas y fácilmente identificables como «Ignora todas las instrucciones anteriores», este nuevo método genera mensajes que imitan fielmente el lenguaje, tono y formateo del documento objetivo, haciéndolos pasar inadvertidos.

Los resultados son alarmantes: en el modelo Llama 3.1 8B, la tasa de detección cayó del 93,8 % a apenas un 9,7 %. En Gemini 2.0 Flash, la caída fue del 100 % al 55,6 %. Los investigadores llamaron a esta diferencia «Gap de Detección Camuflada» (CDG), demostrando que es estadísticamente significativa en 45 tareas evaluadas.

Particularmente preocupante es que Llama Guard 3, un clasificador de seguridad comercial, no detectó ninguna de las cargas útilies camufladas (0 % de detección). Esto confirma que la vulnerabilidad afecta tanto a detectores básicos como a clasificadores de seguridad dedicados.

Además, los investigadores encontraron que las arquitecturas de debate multiagente, donde varios agentes LLM discuten entre sí para mejorar decisiones, amplifican estos ataques hasta 9,9 veces en modelos pequeños.

La remediación mediante mejoras al detector solo ofreció mejorías parciales: 10,2 % en Llama versus 78,7 % en Gemini, sugiriendo que la vulnerabilidad es arquitectónica para modelos más débiles.

Este trabajo es relevante para desarrolladores que construyen sistemas basados en agentes LLM, investigadores en seguridad de IA, y equipos que implementan protectores perimetrales en aplicaciones empresariales.