AGI: ¿Tan cerca está la IA humana?

Fuentes: Why I don't think AGI is imminent, futuresearch.ai

La industria de la inteligencia artificial se encuentra en un momento de euforia sin precedentes. Los líderes de OpenAI y Anthropic han afirmado repetidamente que la inteligencia artificial de nivel humano (AGI) está al alcance de la mano, y en algunos casos, ya ha sido alcanzada. Estas declaraciones han capturado la atención mundial, pero un análisis técnico más profundo sugiere que la realidad es más matizada y que existen barreras cognitivas fundamentales que la IA actual aún no ha superado.

Para entender por qué la IA no ha logrado replicar plenamente la comprensión humana, es necesario examinar las bases evolutivas de nuestra cognición. La neurociencia evolutiva ha identificado un conjunto de "primitivas cognitivas" que están "hardwired" (programadas) en los cerebros de los vertebrados. Estas capacidades, que van desde el sentido del número y la permanencia del objeto hasta la causalidad y la navegación espacial, se han conservado a lo largo de cientos de millones de años de evolución.

A diferencia de los humanos, los modelos de lenguaje basados en transformadores (LLMs) actuales no poseen estas primitivas. El lenguaje humano evolucionó sobre estas bases compartidas, por lo que no necesitamos explicar explícitamente conceptos como la gravedad o la persistencia de los objetos. Por ejemplo, para comprender la frase "Mary sostuvo una pelota", un humano entiende implícitamente que Mary es una entidad animada, que la pelota es un objeto inanimado que persiste en el tiempo, que hay una fuerza de gravedad actuando, y que la pelota no puede atravesar la palma de la mano. Ninguna de estas inferencias está escrita en el texto; son conocimientos previos.

Los LLMs intentan "inventariar" esta comprensión del mundo a partir de datos estadísticos, una tarea extremadamente difícil. Esto explica las limitaciones observadas: los modelos no pueden hacer aritmética de múltiples dígitos de forma confiable porque carecen de sentido numérico, ni pueden inferir relaciones lógicas simples como "A es B" implica "B es A", debido a la falta de maquinaria simbólica y composicional.

La situación se complica cuando se intenta aplicar esta comprensión al mundo físico a través de la visión artificial y la robótica. Aunque los modelos de predicción de video pueden enseñar algo sobre la permanencia del objeto, el análisis sugiere que esto es superficial. Un modelo entrenado para predecir el siguiente fotograma puede aprender que "cuando se levanta una copa, suele haber una pelota", pero no necesariamente rastrea la pelota como una entidad persistente con una trayectoria continua. Esto es lo que diferencia el reconocimiento de patrones de la comprensión profunda de la realidad física.

Rodney Brooks, experto en robótica, ha señalado que incluso la destreza humana es un acoplamiento fino entre el control motor y la retroalimentación sensorial rica. Los robots actuales no tienen acceso a la misma riqueza de información sensorial que los humanos. Además, DeepMind con su proyecto SIMA 2 ha demostrado que la competencia encarnada (actuar en entornos 3D) no emerge del entrenamiento en lenguaje. Aunque SIMA 2 alcanza un rendimiento cercano al humano en tareas de juego, su razonamiento proviene del modelo base (Gemini), no de la experiencia física. Los investigadores encontraron que los modelos de lenguaje base tienen tasas de éxito de solo el 3-7% en tareas encarnadas, lo que demuestra que la comprensión del mundo físico no es un subproducto del procesamiento de texto.

El estado actual de la tecnología sugiere que, aunque la IA ha avanzado enormemente en procesamiento de lenguaje y generación de contenido, la brecha hacia la AGI sigue siendo amplia. La IA actual carece de la "conciencia del mundo" que surge de interactuar físicamente con él. Mientras no tengamos grandes conjuntos de datos que vinculen la percepción multisensorial con la acción intencional, la IA seguirá siendo una herramienta estadística que intenta imitar la comprensión humana sin poseer sus fundamentos evolutivos.