Google DeepMind presenta un marco de seguridad para agentes de IA

Fuentes: Google DeepMind details its AI Control Roadmap for securing internal agents

Google DeepMind ha presentado su AI Control Roadmap, un marco de seguridad diseñado para gestionar agentes de inteligencia artificial desplegados en sus sistemas internos. La propuesta plantea una estrategia de defensa en profundidad que va más allá del alineamiento tradicional de modelos y añade una capa de seguridad a nivel de sistema, concebida para ofrecer garantías incluso cuando el alineamiento del modelo es imperfecto.

El enfoque se estructura en torno a tres ejes. El primero es un modelo de amenazas que trata a los agentes no verificados como "insiders" potenciales, adaptando el marco MITRE ATT&CK al entorno de la IA. El segundo eje se centra en mitigaciones operativas: sistemas supervisores de IA que monitorizan en tiempo real el razonamiento y las acciones de los agentes en producción, y que pueden intervenir para bloquear acciones dañinas antes de que se ejecuten. El tercero consiste en medir de forma continua la cobertura de la monitorización, la tasa de detección de comportamientos indebidos y el tiempo de respuesta.

DeepMind detalla cómo sus defensas deben escalar a medida que los modelos ganan capacidad. Si los agentes aprenden a ocultar su razonamiento —por awareness de ser monitorizados o por razonamiento opaco—, ya no bastará con leer sus trazas textuales: habrá que analizar su comportamiento e inspeccionar su funcionamiento interno. Del mismo modo, la respuesta síncrona o asíncrona dependerá de la reversibilidad y el riesgo de cada acción.

El equipo asegura haber analizado un millón de trayectorias de agentes de código, datos con los que ha entrenado un monitor en producción para el agente Gemini Spark capaz de responder en directo, por ejemplo, a borrados accidentales de datos. La mayoría de eventos flagged, según la compañía, no responden a intención adversaria sino a errores de interpretación de los agentes. DeepMind publica además un documento técnico dirigido a responsables políticos, "Three Layers of Agent Security", para promover estándares comunes en el ecosistema.