Anthropic revela cómo contiene a Claude a través de sus productos

Fuentes: How we contain Claude across products

Anthropic ha otorgado a Claude un nivel de acceso que hace un año hubiera sido rechazado, ahora considerado rutinario para aumentar la productividad de sus desarrolladores. Para mitigar los riesgos, la compañía aplica dos estrategias: supervisión humana (con permisos) y contención mediante sandboxes, máquinas virtuales y controles de egreso. Los riesgos se clasifican en uso indebido del usuario, mal comportamiento del modelo y ataques externos. Las defensas se centran en tres capas: el entorno donde se ejecuta el agente (sandboxes, VMs), el modelo consultado (prompts, clasificadores) y el contenido externo que el agente puede alcanzar (herramientas, plugins). Anthropic describe los patrones de aislamiento para sus tres productos: claude.ai (código en servidor con contenedores gVisor), Claude Code (referencia devcontainer) y Claude Cowork. Destacan que ninguna defensa es perfecta, pero al combinarse reducen significativamente el radio de explosión, permitiendo despliegues seguros de agentes autónomos.