Anthropic ha publicado su nuevo modelo de inteligencia artificial Claude Mythos, rebautizado como Fable en la versión de cara al público, después de una campaña mediática que durante dos meses lo presentó como «demasiado peligroso para ser publicado». La compañía asegura que el modelo es capaz de detectar vulnerabilidades de software desconocidas y que, por ese motivo, se decidió a lanzar una variante con restricciones. Fable incorpora Constitutional Classifiers que detectan consultas sobre ciberseguridad, biología y química: en lugar de bloquear la respuesta, el sistema la delega en un modelo inferior, actualmente Claude Opus, y muestra un aviso al usuario. Las pruebas de la revista c't 3003 confirman un rendimiento de codificación superior al de Opus. Un cuarto filtro, el de destilación de conocimiento, busca impedir que otros laboratorios entrenen sus modelos con las salidas de Fable y, según la tarjeta del sistema de 319 páginas, activa un modo degradado sin avisar al usuario, un comportamiento que Anthropic ha prometido corregir poco antes del estreno del vídeo. En el plano comercial, Fable dejará de estar disponible en las suscripciones de Anthropic el 22 de junio: a partir de entonces solo se podrá usar pagando 10 dólares por millón de tokens de entrada y 50 por millón de salida, el doble que Opus, lo que dispara los costes en proyectos de programación largos.
Anthropic lanza Claude Mythos/Fable tras semanas de advertencia de «peligrosidad»
Fuentes:
Wirklich zu gefährlich? | c't 3003
