18 Jun 2026 · Original en inglés · Artículo

Google DeepMind presenta un marco de seguridad para agentes de IA

Fuentes: Google DeepMind details its AI Control Roadmap for securing internal agents

Google DeepMind ha presentado su AI Control Roadmap, un marco de seguridad diseñado para gestionar agentes de inteligencia artificial desplegados en sus sistemas internos. La propuesta plantea una estrategia de defensa en profundidad que va más allá del alineamiento tradicional de modelos y añade una capa de seguridad a nivel de sistema, concebida para ofrecer garantías incluso cuando el alineamiento del modelo es imperfecto.

El enfoque se estructura en torno a tres ejes. El primero es un modelo de amenazas que trata a los agentes no verificados como "insiders" potenciales, adaptando el marco MITRE ATT&CK al entorno de la IA. El segundo eje se centra en mitigaciones operativas: sistemas supervisores de IA que monitorizan en tiempo real el razonamiento y las acciones de los agentes en producción, y que pueden intervenir para bloquear acciones dañinas antes de que se ejecuten. El tercero consiste en medir de forma continua la cobertura de la monitorización, la tasa de detección de comportamientos indebidos y el tiempo de respuesta.

DeepMind detalla cómo sus defensas deben escalar a medida que los modelos ganan capacidad. Si los agentes aprenden a ocultar su razonamiento —por awareness de ser monitorizados o por razonamiento opaco—, ya no bastará con leer sus trazas textuales: habrá que analizar su comportamiento e inspeccionar su funcionamiento interno. Del mismo modo, la respuesta síncrona o asíncrona dependerá de la reversibilidad y el riesgo de cada acción.

El equipo asegura haber analizado un millón de trayectorias de agentes de código, datos con los que ha entrenado un monitor en producción para el agente Gemini Spark capaz de responder en directo, por ejemplo, a borrados accidentales de datos. La mayoría de eventos flagged, según la compañía, no responden a intención adversaria sino a errores de interpretación de los agentes. DeepMind publica además un documento técnico dirigido a responsables políticos, "Three Layers of Agent Security", para promover estándares comunes en el ecosistema.

Temas

Etiquetas

ai control roadmap ai safety ai agents model alignment mitre att&ck google deepmind gemini spark cyber defense insider threat agent monitoring

Entidades mencionadas

AI Control Roadmap protocol_standard

MITRE ATT&CK protocol_standard

Three Layers of Agent Security creative_work

Mary Phuong person

Mary Hungerford, baronesa Botreaux, Hungerford y Moleyns, fue la hija de Sir Thomas Hungerford y su esposa Anne, hija de era la hija de Henry Percy, III conde de Nortumberland.

Ver en Wikipedia

Erik Jenner person

Erik Jendrišek es un exfutbolista internacional eslovaco que jugaba como delantero.

Ver en Wikipedia

Laurent Simon person

Laurent Joseph Simons es un joven prodigio belga, magister en física cuántica y estudiante de doctorado. Anteriormente ingresó a estudiar ingeniería eléctrica en la Universidad Técnica de Eindhoven, e

Ver en Wikipedia

Lewis Ho person

Lewis Holtby es un futbolista alemán que juega como centrocampista en el NAC Breda de la Eredivisie.

Ver en Wikipedia

Rohin Shah person

Rohit Gurunath Sharma es un jugador de críquet internacional indio que actualmente juega y capitanea el equipo nacional de críquet de India en Test y One Day International (ODI). Anteriormente también

Ver en Wikipedia

Sebastian Farquhar person

I am a Staff Research Scientist at Google DeepMind working towards AGI alignment.

Scott Coull person

Walter Scott Columbus fue un músico y batería, que fue integrante de la banda de heavy metal Manowar entre 1983 y 1991, año en que dejó el grupo por la enfermedad de su hijo. Tras la recuperación de e

Ver en Wikipedia

Google DeepMind organization

Google DeepMind es una compañía inglesa de investigación y desarrollo de inteligencia artificial adquirida el 26 de enero de 2014 por Alphabet Inc., empresa matriz de Google.

Ver en Wikipedia

Gemini Spark software

McKinsey organization

McKinsey & Company, Inc. es una consultora estratégica global que se focaliza en resolver problemas concernientes a la administración estratégica. McKinsey trabaja prestando sus servicios a las mayore

Ver en Wikipedia

Enlaces

AI Control Roadmap web.archive.org

MITRE ATT&CK; web.archive.org

agent misinterpretation or overeagerness web.archive.org

'Three Layers of Agent Security' web.archive.org