El ruido en la evaluación de agentes de IA se promedia
La evaluación de agentes de inteligencia artificial basados en LLMs enfrenta desafíos técnicos significativos debido a su alta ruidosidad y baja correlación con los resultados reales. Aunque estos evaluadores son poco fiables para tomar decisiones de producción que dependen de un solo resultado, com
