El mecanismo de atención de los transformers carece de control ejecutivo, según un estudio con la tarea Stroop

Fuentes: Deficient executive control in transformer attention
Imagen generada por IA con el prompt: Abstract conceptual illustration: a glowing transformer neural network grid on one side, a human brain silhouette on the other, with tangled competing colored threads between them symbolizing cognitive conflict, dark blu
Imagen generada con IA

Una investigación publicada en PNAS Nexus examina una limitación estructural de los modelos de lenguaje basados en la arquitectura transformer: la ausencia de un mecanismo explícito de control ejecutivo de la atención, la función que en el cerebro humano permite resolver conflictos entre estímulos competidores y mantener un comportamiento adaptativo. Para evaluar esta carencia, los autores aplicaron a varios modelos la tarea Stroop de colores, una prueba psicológica de referencia en el estudio del control atencional.

El experimento consistió en pedir al modelo que nombrara el color de la tinta de palabras como «ROJO» escritas en azul (condición incongruente) frente a la misma palabra escrita en su color correspondiente (congruente). En listas cortas, los transformers reprodujeron el patrón humano típico: mayor número de errores en los ensayos incongruentes. Sin embargo, al aumentar la longitud de las listas, el rendimiento en la condición incongruente se desplomó hasta rozar el acierto cero, mientras que la precisión en la condición congruente y la lectura aislada de las palabras se mantuvieron prácticamente intactas.

Los autores interpretan estos resultados como una evidencia de que la autoatención de los transformers es incapaz de regular de forma adaptativa el control atencional cuando crece la interferencia, a diferencia de lo que ocurre en la atención biológica descrita por la teoría de las redes atencionales de Posner y Petersen, que distingue entre alerta, orientación y control ejecutivo. El trabajo concluye que incorporar mecanismos de control ejecutivo inspirados en la cognición humana resulta imprescindible para avanzar hacia una inteligencia artificial general robusta. La investigación ha sido firmada por Suketu Chandrakant Patel, Hongbin Wang y Jin Fan, y supone un argumento neurocientífico a favor de arquitecturas híbridas que complementen la autoatención con módulos dedicados a la resolución de conflictos.