AGI: ¿Tan cerca está la IA humana?

Fuentes: Why I don't think AGI is imminent

El artículo explora por qué la inteligencia artificial general (AGI), o IA a nivel humano, podría no ser tan inminente como algunos CEOs de OpenAI y Anthropic sugieren. El autor, con un doctorado en Machine Learning, argumenta que los modelos de lenguaje basados en transformadores actuales tienen limitaciones fundamentales debido a que no replican la base cognitiva subyacente que permite la comprensión humana.

La clave reside en que la comprensión humana se basa en 'primitivos cognitivos' – habilidades básicas como la noción de número, permanencia de los objetos, causalidad y navegación espacial – que están codificadas en el cerebro de los vertebrados a lo largo de millones de años de evolución. El lenguaje, por su parte, se construye sobre estos primitivos, dándolos por sentados. Cuando entendemos una frase como "Mary sostuvo una pelota", no solo procesamos las palabras, sino que implícitamente asumimos una serie de conocimientos sobre el mundo físico: Mary es una entidad animada, la pelota es un objeto separado, la gravedad, etc. Estos conocimientos no están explícitamente expresados en la frase, pero son esenciales para su comprensión.

Los LLMs actuales intentan 'revertir la ingeniería' de estos primitivos a partir del lenguaje, una tarea extremadamente difícil. La incapacidad de los LLMs para realizar aritmética de varios dígitos o generalizar relaciones lógicas simples se atribuye a la falta de estos primitivos cognitivos. Aunque el entrenamiento con video puede ayudar a simular algunos aspectos, como la permanencia de los objetos, el autor argumenta que incluso esto es superficial. Los modelos tienden a aprender patrones estadísticos en lugar de comprender los principios físicos subyacentes. La investigación en psicología del desarrollo, como la de Elizabeth Spelke, confirma que la representación de objetos como entidades persistentes es una capacidad innata, no aprendida.

El artículo concluye que, si bien se están explorando enfoques como el entrenamiento en entornos simulados para dotar a las IA de experiencia 'encarnada', los resultados son limitados. El ejemplo de SIMA 2 de DeepMind, un agente que aprende a jugar videojuegos, demuestra que el rendimiento en tareas específicas puede ser alto, pero la inteligencia subyacente se basa principalmente en la capacidad de predecir acciones humanas, no en una comprensión genuina del mundo físico. Existe una compensación entre la competencia 'encarnada' y el 'razonamiento general' (habilidades lingüísticas y matemáticas), y no hay evidencia de que el entrenamiento encarnado mejore significativamente este último. La verdadera AGI, según el autor, requerirá una comprensión mucho más profunda de la cognición humana y una integración más estrecha de la percepción, la acción y el razonamiento.