07 May 2026 · Original en inglés · Resumen IA

Herramienta evalúa el rendimiento de agentes de IA

Fuentes: New Tool Helps Developers Test and Validate AI Agent Skills

Desarrolladores ahora tienen una nueva herramienta llamada agent-skills-eval para probar y validar la efectividad de las 'Skills' de Agent Skills, un estándar abierto de Anthropic para dotar a los agentes de conocimiento específico. La herramienta funciona comparando la salida del modelo con y sin la 'Skill' cargada, utilizando un modelo 'judge' para evaluar ambas salidas y generar un informe comparativo. Esto permite a los desarrolladores verificar empíricamente si una 'Skill' realmente mejora el rendimiento del modelo en una tarea específica, proporcionando evidencia tangible de su impacto. agent-skills-eval es compatible con diversos modelos y plataformas, incluyendo OpenAI, Groq, Llama y se puede integrar fácilmente en flujos de trabajo de CI/CD. La herramienta genera informes HTML estáticos con detalles completos de las evaluaciones, incluyendo métricas de rendimiento, razonamiento del 'judge' y comparaciones lado a lado. Además, ofrece una API en TypeScript para integraciones más complejas y la posibilidad de crear 'providers' personalizados para interactuar con diferentes modelos y APIs.

Temas

ia desarrollo empresas

Etiquetas

anthropic agent skills gpt-4o inteligencia artificial desarrollo de software testing evaluación open source github

Entidades mencionadas

Agent Skills organization

This gives agents: Domain expertise: Capture specialized knowledge — from legal review processes to data analysis pipelines to presentation formatting — as reusable instructions and resources. Repeata

SKILL.md software

Anthropic organization

Anthropic es una empresa emergente estadounidense de investigación y desarrollo de inteligencia artificial (IA) fundada por exmiembros de OpenAI.

Ver en Wikipedia

agent-skills-eval software

GPT-4o-mini software

TypeScript software

TypeScript es un lenguaje de programación libre y de código abierto desarrollado y mantenido por Microsoft. Es un superconjunto de JavaScript, que esencialmente añade tipos estáticos y objetos basados

Ver en Wikipedia

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

Together organization

Together at Home fue una serie de conciertos virtuales organizados por Global Citizen y la cantante estadounidense Lady Gaga, en apoyo a la Organización Mundial de Salud. El especial está destinado a

Ver en Wikipedia

Groq location

Groenlandia es una isla en la zona nororiental de América del Norte, entre los océanos Atlántico y Glacial Ártico, que políticamente es una nación constituyente del Reino de Dinamarca. Con un total de

Ver en Wikipedia

LLaMA software

JSON software

JSONL software

SKILL.md software

evals.json software

OpenAI-compatible protocol_standard

Agent Skills Report creative_work