Un nuevo benchmark realizado por Reflex.dev revela que los agentes de visión para interactuar con aplicaciones son significativamente más costosos que el uso de APIs estructuradas. La prueba comparó dos métodos para que un agente de IA operara un panel de administración: uno a través de la interfaz de usuario (vision agent, tomando capturas de pantalla y clics) y otro llamando directamente a los puntos finales HTTP (API agent). El vision agent completó la tarea en 53 pasos y consumió aproximadamente 550,000 tokens, mientras que el API agent lo hizo en solo 8 llamadas y 12,000 tokens, resultando en un costo 45 veces mayor. La diferencia se atribuye a que los agentes de visión deben 'ver' la interfaz, renderizando cada estado intermedio, mientras que los agentes API reciben datos estructurados directamente. Aunque los modelos de visión más avanzados pueden reducir los errores por captura de pantalla, no disminuyen la cantidad de capturas necesarias. Este hallazgo sugiere que, para herramientas internas que se pueden modificar, el uso de APIs es una alternativa más eficiente y económica. El código del benchmark es de código abierto y está disponible en GitHub.
