La interpretabilidad mecanicista ha dado pasos importantes para desentrañar el funcionamiento interno de los grandes modelos de lenguaje, según explica el investigador Jay Hack al resumir hallazgos recientes de Anthropic. Aunque durante años se presentó a los LLM como cajas negras opacas, técnicas como el trazado de circuitos permiten hoy observar cómo estos sistemas razonan en varias etapas.
El artículo parte de una pregunta clave: qué está "pensando" realmente un LLM. Responderla resulta especialmente valioso porque permitiría orientar su comportamiento, detectar intenciones peligrosas o mejorar su diseño. Sin embargo, no basta con observar las activaciones de neuronas individuales. El fenómeno de la superposición —en el que una sola neurona participa en muchos conceptos no relacionados y un concepto se distribuye entre muchas neuronas— obliga a recurrir a métodos más creativos.
Una de esas técnicas, desarrollada por Anthropic, entrena un "modelo de reemplazo" que reproduce de forma dispersa las salidas de las capas MLP del modelo original. Así, las activaciones se descomponen en un conjunto de características dispersas que corresponden a conceptos de alto nivel fácilmente reconocibles por humanos, como "Texas" o "los Juegos Olímpicos". Estas características pueden agruparse en clusters conectados causalmente durante el paso hacia adelante, formando un diagrama de cableado de la computación.
En la práctica, los modelos muestran razonamiento genuino en varios pasos a través de conceptos intermedios. Por ejemplo, al preguntar "cuál es la capital del estado que contiene Dallas", se observa cómo se activa primero la característica de Dallas, luego la de Texas y, por último, la de Austin. Los modelos también pueden anticipar candidatos de rima al planificar un poema.
Este fenómeno no es exclusivo de los modelos de lenguaje. DeepMind demostró en 2022 que AlphaZero, entrenado sin conocimiento humano del ajedrez, desarrolló representaciones intermedias alineadas con conceptos como "jaque" o "clavada". Además, comprender los algoritmos implícitos de un modelo puede inspirar mejoras en los algoritmos de aprendizaje: Claude 3.5 Haiku aprendió a sumar números enteros pequeños dividiendo el problema en vías paralelas, combinando una magnitud aproximada con el dígito preciso de las unidades y apoyándose en memorias tipo tabla de consulta.
Hack subraya que los modelos carecen de metacognición sobre su propio proceso: al pedirles que expliquen cómo sumaron dos números, narran un procedimiento humano que no es el que realmente ejecutaron. Esa especie de "subconsciente" es precisamente lo que permite a los investigadores asomarse dentro. La interpretabilidad mecanicista se consolida así como una línea de trabajo con resultados significativos, con implicaciones para detectar comportamiento anómalo, orientar a los modelos y diseñar mejores algoritmos de aprendizaje.
