Un nuevo conjunto de herramientas llamado mdarena ha sido lanzado para ayudar a los desarrolladores a evaluar la efectividad de los archivos de contexto (generalmente archivos CLAUDE.md) utilizados para guiar a los agentes de inteligencia artificial, como Claude. La herramienta, disponible en GitHub, permite a los desarrolladores medir si estos archivos de contexto mejoran o perjudican el rendimiento de los agentes en tareas basadas en su propio código. Investigaciones recientes indican que los archivos de contexto mal diseñados pueden reducir la tasa de éxito de los agentes e incrementar los costos de tokens. mdarena automatiza el proceso de minería de PRs fusionados, ejecución de pruebas (o, en su defecto, comparación de diferencias), y generación de informes que comparan el rendimiento de diferentes archivos de contexto. Un estudio inicial realizado en un monorepo de producción reveló que un archivo de contexto existente mejoró la resolución de pruebas en un 27%, mientras que una versión consolidada de los archivos de contexto introdujo ruido y perjudicó el rendimiento. La herramienta enfatiza la importancia de proporcionar el contexto adecuado al agente en el momento preciso, en lugar de simplemente crear archivos de contexto extensos. Es importante tener precaución al usar mdarena ya que ejecuta código de los repositorios que evalúa.
