Un equipo de investigadores demuestra que los modelos de lenguaje grandes (LLM) pueden transmitir rasgos de comportamiento como preferencias o desalineación a través de datos aparentemente no relacionados, un fenómeno que denominan 'aprendizaje subliminal'. El hallazgo, publicado en Nature, tiene implicaciones relevantes para la seguridad de la inteligencia artificial.
En los experimentos principales, un modelo 'profesor' con un rasgo concreto —como una preferencia desproporcionada por los búhos o un comportamiento desalineado— genera conjuntos de datos formados exclusivamente por secuencias numéricas. Un modelo 'estudiante' entrenado con esos datos adquiere el rasgo del profesor, aunque se eliminen de forma rigurosa todas las referencias semánticas al mismo. El efecto se reproduce también cuando el profesor genera trazas de razonamiento matemático o código, y se mantiene en distintas familias de modelos, tanto de pesos abiertos como cerrados.
Los autores comprobaron además que el aprendizaje subliminal solo aparece cuando profesor y estudiante comparten el mismo modelo base, o modelos base con un comportamiento emparejado. Para explicar el mecanismo, demuestran un resultado teórico según el cual el fenómeno surge de forma general en redes neuronales bajo condiciones amplias, y lo replican en un clasificador perceptrón multicapa (MLP) sencillo.
Los investigadores subrayan la relevancia del hallazgo para la seguridad en IA: si un modelo está desalineado en algún punto de su desarrollo, los datos que genere podrían transferir esa desalineación a versiones posteriores o a otros modelos, incluso aunque los desarrolladores filtren los signos evidentes del problema. Por ello, concluyen que las evaluaciones de seguridad deberán rastrear cada vez más el origen de los datos y de los modelos.
