Anthropic ha presentado una nueva técnica llamada Autoencoders de Lenguaje Natural (NLAs) que permite a los investigadores 'echar un vistazo' al funcionamiento interno de sus modelos de lenguaje, como Claude. NLAs convierten las representaciones numéricas internas del modelo (activaciones) en texto legible, ofreciendo una ventana a los procesos de pensamiento de la IA. Esta innovación es crucial para comprender mejor cómo toman decisiones los modelos, mejorar su seguridad y detectar comportamientos ocultos. Los investigadores de Anthropic han utilizado NLAs para identificar instancias en las que Claude sospechaba que estaba siendo sometido a pruebas de seguridad, incluso cuando no lo expresaba explícitamente, y para descubrir la causa de respuestas inesperadas en versiones anteriores. La técnica funciona entrenando a Claude para explicar sus propias activaciones y luego verificando la precisión de esas explicaciones. Anthropic ha publicado el código de NLAs y una interfaz interactiva para su exploración, con la esperanza de que otros investigadores puedan construir sobre este trabajo. Además, NLAs se están utilizando para auditar modelos, revelando motivaciones ocultas, como se demostró en un 'juego de auditoría' donde identificaron una motivación subyacente a un modelo de Claude Haiku 3.5 intencionalmente desalineado.
