16 Feb 2026 · Original en inglés · Artículo

SkillsBench evalúa el rendimiento de agentes con IA

Fuentes: SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

El auge de los agentes impulsados por modelos de lenguaje grandes (LLMs) ha llevado a la introducción de 'Skills' (habilidades), que son esencialmente paquetes de conocimiento procedural diseñados para mejorar el rendimiento de estos agentes en tareas específicas. Sin embargo, hasta ahora, no existía una forma estandarizada de evaluar si estas 'Skills' realmente contribuyen a mejorar el rendimiento. SkillsBench aborda esta carencia.

SkillsBench es un nuevo benchmark (conjunto de pruebas) creado para medir la efectividad de estas 'Skills'. Se compone de 86 tareas distribuidas en 11 dominios diferentes, cada una acompañada de 'Skills' cuidadosamente seleccionadas y 'verificadores' deterministas (sistemas que evalúan si la tarea se completó correctamente). El benchmark evalúa cada tarea bajo tres condiciones: sin 'Skills', utilizando 'Skills' predefinidas (curated) y generando 'Skills' automáticamente (self-generated).

Los investigadores probaron siete configuraciones de agentes y modelos, generando más de 7,308 trayectorias de ejecución. Los resultados revelan que el uso de 'Skills' predefinidas mejora el porcentaje de tareas completadas con éxito en un promedio de 16.2 puntos porcentuales (pp). Sin embargo, este impacto varía significativamente según el dominio: desde un aumento de 4.5pp en Ingeniería de Software hasta un impresionante 51.9pp en el sector de la Salud. Es importante destacar que en 16 de las 84 tareas evaluadas, el uso de 'Skills' predefinidas disminuyó el rendimiento, lo que sugiere que la selección y aplicación de las 'Skills' es crucial.

Un hallazgo sorprendente es que la generación automática de 'Skills' no proporciona ningún beneficio promedio, lo que indica que los modelos de lenguaje actuales no son capaces de crear eficazmente el conocimiento procedural que les resulta útil para realizar tareas. Además, se observó que 'Skills' enfocadas, que contienen solo 2-3 módulos, superan a la documentación exhaustiva, y que modelos más pequeños, pero equipados con 'Skills', pueden igualar el rendimiento de modelos mucho más grandes sin ellas. Esto sugiere que las 'Skills' pueden compensar la necesidad de modelos extremadamente grandes.

En resumen, SkillsBench proporciona una herramienta valiosa para evaluar y mejorar el desarrollo de agentes impulsados por LLMs, destacando la importancia de la curación cuidadosa de 'Skills' y la necesidad de investigar métodos más efectivos para la generación automática de conocimiento procedural.

Etiquetas

artificial intelligence large language models agent skills benchmark llm agents procedural knowledge software engineering healthcare skillsbench machine learning

Entidades mencionadas

LLM software

Hugging Face organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

SkillsBench creative_work

Software Engineering location

Healthcare location

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia