Un estudio reciente publicado en GitHub ha validado en gran medida las críticas técnicas de Gary Marcus, un reconocido escéptico de la inteligencia artificial. El análisis, realizado por David Goldblatt utilizando los modelos de lenguaje Claude Code (Opus 4.6) y Codex (ChatGPT), examinó 2.218 afirmaciones hechas por Marcus en 474 publicaciones en Substack desde mayo de 2022. Los resultados revelan que el 59,9% de sus afirmaciones son respaldadas por la evidencia disponible hasta marzo de 2026, mientras que el 33,7% presentan resultados mixtos y solo el 6,4% son contradecidas.
El estudio destaca que las observaciones técnicas específicas de Marcus, como las vulnerabilidades de seguridad en los LLM, la falta de fiabilidad de los videos de Sora y la prematuridad de los agentes de IA para la producción, fueron consistentemente corroboradas. Sin embargo, sus predicciones sobre el mercado, particularmente las relacionadas con una posible burbuja de GenAI, han sido en gran medida refutadas. El análisis también revela una correlación entre las áreas donde Marcus se equivoca y el volumen de su producción escrita. El estudio proporciona una metodología detallada y acceso a los datos brutos, aunque advierte que las evaluaciones son realizadas por LLMs y requieren verificación antes de su citación.
