IA potente limitada: Anthropic frena nuevo modelo

Fuentes: Anthropic restricts powerful AI model to prevent exploits

Anthropic ha restringido el acceso a su nuevo modelo de IA, Claude Mythos, debido a su potencial para generar exploits de seguridad informática a gran escala. A diferencia de lanzamientos anteriores, Mythos no estará disponible para el público general, ya que podría permitir a atacantes descubrir vulnerabilidades en prácticamente todos los sistemas operativos y navegadores. En su lugar, Anthropic ha creado el Proyecto Glasswing, que proporciona acceso limitado a Claude Mythos a empresas de ciberseguridad para que puedan parchear software crítico.

La decisión, inusual en la industria de la IA, refleja la creciente preocupación por los riesgos asociados con modelos de lenguaje cada vez más potentes. Aunque Anthropic afirma que Mythos muestra una alineación mejorada, advierte que los fallos de alineación podrían ser más peligrosos debido a la mayor capacidad del modelo. Existe también la preocupación de que el gobierno intente utilizar estas capacidades para fines ofensivos, lo que Anthropic está intentando evitar colaborando con las autoridades para asegurar sus propios sistemas. El autor del artículo, Zvi Mowshowitz, confía en la legitimidad de las acciones de Anthropic, aunque reconoce la dificultad de determinar la profundidad de la alineación real del modelo.