La inyección de prompts como confusión de roles: una nueva teoría sobre la vulnerabilidad de los LLM

Fuentes: Prompt Injection as Role Confusion: A Theory of Why LLMs Fall for Injections

Un equipo de investigación presenta una nueva teoría sobre la inyección de prompts en modelos de lenguaje de gran tamaño (LLM) según la cual el fenómeno no se explica por fallos en el reconocimiento de patrones maliciosos, sino por un defecto más profundo: la incapacidad de los modelos para percibir con precisión la función de los distintos roles (system, user, tool, think, assistant) que estructuran su contexto. Los autores sostienen que un LLM recibe todo su input como un único flujo continuo de tokens, sin canales sensoriales diferenciados como los que usa un humano para distinguir pensamiento propio de话语 ajeno, y que las etiquetas de rol son el único mecanismo discreto con el que el modelo intenta reconstruir esa estructura. Esa sobrecarga de funciones hace que las fronteras entre roles puedan fallar: un fragmento de texto etiquetado como tool (dato externo) puede ser tratado por el modelo como una instrucción de usuario, lo que abre la puerta a ataques de inyección. Para demostrarlo, el equipo desarrolló "role probes", clasificadores lineales entrenados sobre las activaciones internas del modelo que miden cuantitativamente cuánto cree el LLM que un token pertenece a cada rol. Los resultados muestran que tokens fuera de los bloques think presentan puntuaciones de CoTness sorprendentemente altas, lo que evidencia una percepción de roles defectuosa. Los autores identifican dos vías de defensa frente a inyecciones: la memorización de ataques conocidos (frágil, solo eficaz contra patrones vistos en entrenamiento) y la percepción correcta del rol del texto (robusta, pero actualmente fallida). Argumentan que los buenos resultados de los modelos en benchmarks estáticos enmascaran su vulnerabilidad ante atacantes humanos, que reformulan los ataques hasta esquivar la memorización. El trabajo propone una nueva agenda de investigación orientada a entender los roles como un objeto científico y a desarrollar defensas basadas en la percepción de roles en lugar de en el reconocimiento de patrones.