19 Mar 2026 · Original en inglés · Resumen IA

Modelos de IA fallan en lenguajes de programación inusuales

Fuentes: New Benchmark Exposes Limits of Large Language Model Coding

Un nuevo referente llamado EsoLang-Bench ha revelado limitaciones significativas en la capacidad de los modelos de lenguaje grandes (LLM) para generar código, a pesar de sus impresionantes resultados en lenguajes de programación convencionales como Python. La investigación, publicada en arXiv, evalúa a los LLM en ocho lenguajes esotéricos (Brainfuck, Befunge-98, Whitespace, Unlambda y Shakespeare), donde los datos de entrenamiento son hasta 100.000 veces más escasos que para Python. Los resultados muestran que la precisión de los modelos líderes cae drásticamente, de alrededor del 90% en Python a solo un 3.8% en promedio en los lenguajes esotéricos.

Este hallazgo sugiere que las altas puntuaciones en referentes estándar pueden reflejar memorización de datos en lugar de una verdadera capacidad de razonamiento. El modelo con mejor desempeño no logró resolver problemas de dificultad media o alta en ningún lenguaje, y Whitespace resultó completamente invencible. El uso de herramientas como intérpretes y bucles de retroalimentación de ejecución mejoró el rendimiento, pero aún así, la capacidad de los LLM para comprender y generar código en estos lenguajes especializados se mantiene muy por debajo de lo esperado, evidenciando una brecha importante entre la percepción pública y la realidad de sus habilidades de programación.

Temas

desarrollo

Etiquetas

large language models esolang-bench programming artificial intelligence code generation benchmark esoteric languages reasoning

Entidades mencionadas

LLM software

Brainfuck software

Codex software

Claude Code software

Befunge-98 software

Whitespace software

Unlambda software

Shakespeare software

EsoLang-Bench creative_work

Sharma, Aman person

Anushka Sharma es una actriz y productora de cine india. Ella ha establecido una carrera en películas en idioma hindi, y es una de las actrices más populares y mejor pagadas en La India. Ha recibido v

Ver en Wikipedia

Chopra, Paras person

Parineeti Chopra es una actriz y cantante india, popular por su actuación en películas en lenguaje hindi.

Ver en Wikipedia

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia