Self-Harness: un paradigma para que los agentes LLM mejoren su propio arnés operativo

Fuentes: Self-Harness: a paradigm for LLM agents that improve their own operating harness

Self-Harness es un nuevo paradigma de investigación en inteligencia artificial según el cual un agente basado en modelos de lenguaje grandes (LLM) puede mejorar de forma autónoma el arnés —el software intermediario— que regula su interacción con el entorno, sin necesidad de ingenieros humanos ni de agentes externos más potentes. El enfoque responde a un problema creciente: los LLM modernos son cada vez más diversos y cambian con rapidez, lo que hace que el diseño manual de arneses específicos para cada modelo escale mal.

El método se articula en un bucle iterativo de tres etapas. En primer lugar, la minería de debilidades analiza los registros de ejecución del agente para detectar patrones de fallo propios de cada modelo. A continuación, la etapa de propuesta de arnés genera modificaciones mínimas y diversas, vinculadas a esas debilidades concretas. Por último, la validación de propuestas somete cada cambio a pruebas de regresión antes de aceptarlo, lo que garantiza que las ediciones no introduzcan nuevos problemas.

Los autores instanancian Self-Harness sobre Terminal-Bench-2.0, un banco de pruebas de tareas en línea de comandos, partiendo de un arnés inicial minimalista y aplicándolo a tres modelos de familias distintas: MiniMax M2.5, Qwen3.5-35B-A3B y GLM-5. En los tres casos, Self-Harness提升了 la tasa de acierto en pruebas no vistas: de 40,5 % a 61,9 % en MiniMax M2.5, de 23,8 % a 38,1 % en Qwen3.5-35B-A3B y de 42,9 % a 57,1 % en GLM-5.

Los análisis cualitativos muestran que Self-Harness no se limita a añadir instrucciones genéricas, sino que traduce las debilidades específicas de cada modelo en cambios concretos y ejecutables del arnés. El trabajo, publicado en arXiv en junio de 2026, apunta a una nueva dirección: agentes LLM que no solo se ven moldeados por su arnés, sino que también participan en su rediseño.