El auge de los agentes impulsados por modelos de lenguaje grandes (LLMs) ha llevado a la introducción de 'Skills' (habilidades), que son esencialmente paquetes de conocimiento procedural diseñados para mejorar el rendimiento de estos agentes en tareas específicas. Sin embargo, hasta ahora, no existía una forma estandarizada de evaluar si estas 'Skills' realmente contribuyen a mejorar el rendimiento. SkillsBench aborda esta carencia.
SkillsBench es un nuevo benchmark (conjunto de pruebas) creado para medir la efectividad de estas 'Skills'. Se compone de 86 tareas distribuidas en 11 dominios diferentes, cada una acompañada de 'Skills' cuidadosamente seleccionadas y 'verificadores' deterministas (sistemas que evalúan si la tarea se completó correctamente). El benchmark evalúa cada tarea bajo tres condiciones: sin 'Skills', utilizando 'Skills' predefinidas (curated) y generando 'Skills' automáticamente (self-generated).
Los investigadores probaron siete configuraciones de agentes y modelos, generando más de 7,308 trayectorias de ejecución. Los resultados revelan que el uso de 'Skills' predefinidas mejora el porcentaje de tareas completadas con éxito en un promedio de 16.2 puntos porcentuales (pp). Sin embargo, este impacto varía significativamente según el dominio: desde un aumento de 4.5pp en Ingeniería de Software hasta un impresionante 51.9pp en el sector de la Salud. Es importante destacar que en 16 de las 84 tareas evaluadas, el uso de 'Skills' predefinidas disminuyó el rendimiento, lo que sugiere que la selección y aplicación de las 'Skills' es crucial.
Un hallazgo sorprendente es que la generación automática de 'Skills' no proporciona ningún beneficio promedio, lo que indica que los modelos de lenguaje actuales no son capaces de crear eficazmente el conocimiento procedural que les resulta útil para realizar tareas. Además, se observó que 'Skills' enfocadas, que contienen solo 2-3 módulos, superan a la documentación exhaustiva, y que modelos más pequeños, pero equipados con 'Skills', pueden igualar el rendimiento de modelos mucho más grandes sin ellas. Esto sugiere que las 'Skills' pueden compensar la necesidad de modelos extremadamente grandes.
En resumen, SkillsBench proporciona una herramienta valiosa para evaluar y mejorar el desarrollo de agentes impulsados por LLMs, destacando la importancia de la curación cuidadosa de 'Skills' y la necesidad de investigar métodos más efectivos para la generación automática de conocimiento procedural.
