IA: Nueva Prueba Mide la Comprensión de Agentes Web

Fuentes: New Benchmark Tests AI Coding Agents' Ability to Read Web Content

Un nuevo benchmark, llamado Agent Reading Test (disponible en agentreadingtest.com/start/), ha sido lanzado para evaluar la capacidad de los agentes de codificación con IA para interpretar contenido web. La herramienta, desarrollada como complemento de la especificación Agent-Friendly Documentation Spec, busca identificar fallos comunes que experimentan agentes como Claude Code, Cursor y GitHub Copilot al procesar documentación online. Estos fallos incluyen la truncación de contenido, la interferencia de CSS, la renderización client-side y la serialización de contenido en pestañas.

El test presenta páginas web diseñadas con problemas específicos documentados en la especificación, incrustando 'canary tokens' en posiciones estratégicas. Los agentes son sometidos a tareas de documentación realistas, y solo después de completarlas, se les pide reportar los tokens encontrados. La puntuación, sobre un máximo de 20 puntos, refleja la capacidad del agente para superar estos desafíos. Actualmente, la mayoría de los agentes obtienen puntuaciones entre 14 y 18, indicando que la mejora en la lectura de contenido web sigue siendo un área de desarrollo crucial para la IA. El objetivo es medir la robustez de los agentes frente a las complejidades del contenido web, complementando las evaluaciones tradicionales de los sitios de documentación.