Un nuevo referente llamado EsoLang-Bench ha revelado limitaciones significativas en la capacidad de los modelos de lenguaje grandes (LLM) para generar código, a pesar de sus impresionantes resultados en lenguajes de programación convencionales como Python. La investigación, publicada en arXiv, evalúa a los LLM en ocho lenguajes esotéricos (Brainfuck, Befunge-98, Whitespace, Unlambda y Shakespeare), donde los datos de entrenamiento son hasta 100.000 veces más escasos que para Python. Los resultados muestran que la precisión de los modelos líderes cae drásticamente, de alrededor del 90% en Python a solo un 3.8% en promedio en los lenguajes esotéricos.
Este hallazgo sugiere que las altas puntuaciones en referentes estándar pueden reflejar memorización de datos en lugar de una verdadera capacidad de razonamiento. El modelo con mejor desempeño no logró resolver problemas de dificultad media o alta en ningún lenguaje, y Whitespace resultó completamente invencible. El uso de herramientas como intérpretes y bucles de retroalimentación de ejecución mejoró el rendimiento, pero aún así, la capacidad de los LLM para comprender y generar código en estos lenguajes especializados se mantiene muy por debajo de lo esperado, evidenciando una brecha importante entre la percepción pública y la realidad de sus habilidades de programación.
