22 May 2026 · Original en inglés · Artículo

Investigadores descubren ataque que evade seguridad en sistemas LLM

Fuentes: Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems

Este artículo de investigación revela una vulnerabilidad crítica en los sistemas de seguridad diseñados para proteger agentes LLM (Large Language Models). Los autores demuestran que los actuales detectores de inyección de prompts, usados para defender estos sistemas, fallan estrepitosamente cuando las cargas útiles maliciosas adoptan el vocabulario y la estructura de autoridad del documento que intentan manipular.

Los investigadores crearon un nuevo tipo de ataque denominado «inyección camuflada por dominio» (domain-camouflaged injection). A diferencia de los ataques de inyección tradicionales que usan instrucciones genéricas y fácilmente identificables como «Ignora todas las instrucciones anteriores», este nuevo método genera mensajes que imitan fielmente el lenguaje, tono y formateo del documento objetivo, haciéndolos pasar inadvertidos.

Los resultados son alarmantes: en el modelo Llama 3.1 8B, la tasa de detección cayó del 93,8 % a apenas un 9,7 %. En Gemini 2.0 Flash, la caída fue del 100 % al 55,6 %. Los investigadores llamaron a esta diferencia «Gap de Detección Camuflada» (CDG), demostrando que es estadísticamente significativa en 45 tareas evaluadas.

Particularmente preocupante es que Llama Guard 3, un clasificador de seguridad comercial, no detectó ninguna de las cargas útilies camufladas (0 % de detección). Esto confirma que la vulnerabilidad afecta tanto a detectores básicos como a clasificadores de seguridad dedicados.

Además, los investigadores encontraron que las arquitecturas de debate multiagente, donde varios agentes LLM discuten entre sí para mejorar decisiones, amplifican estos ataques hasta 9,9 veces en modelos pequeños.

La remediación mediante mejoras al detector solo ofreció mejorías parciales: 10,2 % en Llama versus 78,7 % en Gemini, sugiriendo que la vulnerabilidad es arquitectónica para modelos más débiles.

Este trabajo es relevante para desarrolladores que construyen sistemas basados en agentes LLM, investigadores en seguridad de IA, y equipos que implementan protectores perimetrales en aplicaciones empresariales.

Temas

Etiquetas

inteligencia artificial seguridad informática machine learning ciberseguridad ataque adversario llm deep learning arquitectura de agentes detección de amenazas seguridad en ia

Entidades mencionadas

Gemini 2.0 Flash software

Llama Guard 3 software

Llama 3.1 8B software

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Hugging Face organization

Enlaces

What is Huggingface? huggingface.co