07 May 2026 · Original en inglés · Artículo

Modelos de IA reconstruyen código: ¿el futuro del desarrollo?

Fuentes: ProgramBench: Can Language Models Rebuild Programs From Scratch?

El auge de los modelos de lenguaje (LLMs) ha abierto la puerta a la posibilidad de que estos sistemas generen código de software de forma autónoma, desde cero. Esto implica la creación de agentes capaces de tomar decisiones arquitectónicas complejas y gestionar bases de código extensas con mínima intervención humana. Sin embargo, las herramientas de evaluación existentes se centran en tareas fragmentadas, como la corrección de errores específicos o la implementación de funcionalidades aisladas, lo que no refleja la complejidad de la ingeniería de software a gran escala.

Para abordar esta limitación, un equipo de investigadores ha presentado ProgramBench, una nueva herramienta de evaluación diseñada para medir la capacidad de los agentes de IA para desarrollar software de forma holística. En ProgramBench, los agentes reciben un programa y su documentación, y deben reconstruir una base de código que reproduzca el comportamiento del programa original. La evaluación se realiza a través de pruebas de comportamiento generadas automáticamente por el propio agente (fuzzing), lo que evita imponer una estructura de implementación predefinida. Esto es crucial porque permite evaluar si el agente realmente comprende el qué del programa, no solo cómo implementarlo de una manera específica.

El conjunto de tareas de ProgramBench es considerable, abarcando desde pequeñas utilidades de línea de comandos hasta software ampliamente utilizado como FFmpeg (un transcodificador multimedia), SQLite (un sistema de gestión de bases de datos) y el intérprete de PHP. La evaluación de nueve modelos de lenguaje reveló que ninguno de ellos logró resolver completamente ninguna de las tareas. El mejor modelo solo superó el 95% de las pruebas en un 3% de las tareas. Un aspecto preocupante es la tendencia de los modelos a generar implementaciones monolíticas, concentradas en un único archivo, lo que difiere significativamente de la forma en que los humanos estructuran el código.

Implicaciones y Consideraciones: ProgramBench destaca la brecha existente entre la capacidad de los LLMs para generar código fragmentado y su habilidad para construir sistemas de software complejos y bien estructurados. La tendencia a crear implementaciones monolíticas sugiere una falta de comprensión de los principios de modularidad y diseño de software. Si bien los LLMs muestran un potencial prometedor, es crucial desarrollar herramientas de evaluación más completas, como ProgramBench, para impulsar su progreso y garantizar que puedan asumir roles más significativos en el proceso de desarrollo de software. El uso de fuzzing para generar pruebas es una técnica innovadora que permite una evaluación más objetiva y flexible. El éxito futuro en este campo dependerá de la capacidad de los modelos para comprender no solo la lógica del programa, sino también sus implicaciones arquitectónicas y de diseño.

Etiquetas

large language models software engineering program synthesis artificial intelligence fuzzing code generation benchmark automated testing programbench

Entidades mencionadas

ProgramBench software

FFmpeg software

SQLite software

SQLite es un sistema de gestión de bases de datos relacional compatible con ACID, contenida en una relativamente pequeña (~275 kiB) biblioteca escrita en C. SQLite es un proyecto de dominio público cr

Ver en Wikipedia

PHP software

Hugging Face organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

alphaXiv organization

Alphaville es un grupo musical alemán de synth pop que fue muy popular en la década de 1980. Sus canciones más populares son Forever Young, Big in Japan, Jet Set y Sounds Like a Melody, todas contenid

Ver en Wikipedia

CatalyzeX organization

Se denomina verso cataléctico a aquel métricamente incompleto, es decir, o bien le falta una sílaba, o bien, en el caso de la de la poesía griega y latina, que tiene uno de sus pies imperfecto al fina

Ver en Wikipedia

DagsHub organization

Dash Berlin es un grupo neerlandés de trance, progressive trance, y progressive house. En un principio estaba formado por Eelke Kalberg y Sebastiaan Molijn, y poco después se unió Jeffrey Sutorius, qu

Ver en Wikipedia

Gotit.pub organization

An open platform to discuss research · Annotate, Q&A, discuss any article with the research community - directly on the article · Or drag and drop a PDF · Examples: · article · 2302.13971v1: · LLa

ScienceCast organization

Science Fantasy, que también apareció con los títulos Impulse y SF Impulse, fue una revista británica de fantasía y ciencia ficción lanzada en 1950 por Nova Publications como complemento de New Worlds

Ver en Wikipedia