Una reciente investigación de la ETH Zurich cuestiona la práctica común de utilizar archivos AGENTS.md para mejorar el rendimiento de los agentes de codificación con IA. Contrariamente a las recomendaciones de la industria, el estudio, publicado en arXiv, concluye que estos archivos, especialmente los generados por modelos de lenguaje grandes (LLM), a menudo perjudican el rendimiento, disminuyendo la tasa de éxito en tareas de codificación y aumentando los costos de inferencia. Los investigadores, quienes desarrollaron el conjunto de datos AGENTbench para evaluar los agentes en tareas de programación Python del mundo real, encontraron que los archivos generados por LLM reducen la tasa de éxito en un 3% y aumentan los costos en más del 20%. Los archivos escritos por humanos mostraron una ligera mejora (4% en la tasa de éxito), pero también incrementaron los costos. El análisis reveló que los agentes tienden a seguir las instrucciones de estos archivos, lo que lleva a pruebas y exploraciones innecesarias. Los autores sugieren que los desarrolladores se enfoquen en la creación de archivos AGENTS.md de alta calidad, ya que los archivos de contexto, en general, pueden ser más útiles para los desarrolladores que para los propios agentes de IA. La investigación destaca una brecha entre las recomendaciones actuales y los resultados observados, e impulsa futuras investigaciones sobre cómo generar guías concisas y relevantes para los agentes de codificación.
