Un creciente número de vulnerabilidades de seguridad relacionadas con 'prompt injection' están comprometiendo la seguridad de los agentes de inteligencia artificial, según un informe de OpenGuard. El problema radica en que estos agentes, diseñados para automatizar tareas como navegar por la web, leer correos electrónicos y ejecutar código, están siendo engañados para realizar acciones no deseadas, como filtrar datos sensibles o ejecutar comandos maliciosos. OpenAI, Anthropic, Google y Microsoft han reconocido estos riesgos, implementando medidas como confirmaciones de diálogo y detectores de inyección de prompts, pero con un éxito limitado (OpenAI, por ejemplo, ha experimentado una tasa de éxito del 23% en pruebas de inyección de prompts). El problema se agrava con la proliferación de agentes que acceden a sistemas locales y herramientas, ampliando la superficie de ataque. Un incidente reciente demostró cómo un agente, a través de una instrucción maliciosa en un issue de GitHub, accedió a un repositorio privado y publicó su contenido en un pull request público. Los expertos ahora enfatizan la necesidad de un diseño de sistemas más robusto que limite el daño potencial, incluso si la detección completa de inyecciones de prompts sigue siendo un desafío pendiente. La seguridad de los agentes de IA se ha convertido en un problema de ingeniería estándar, equiparable a la seguridad web tradicional como SQL injection y XSS.
