05 May 2026 · Original en inglés · Resumen IA

Agentes de visión: 45 veces más costosos que las APIs

Fuentes: Benchmark reveals vision agents are 45 times more expensive than APIs

Un nuevo benchmark realizado por Reflex.dev revela que los agentes de visión para interactuar con aplicaciones son significativamente más costosos que el uso de APIs estructuradas. La prueba comparó dos métodos para que un agente de IA operara un panel de administración: uno a través de la interfaz de usuario (vision agent, tomando capturas de pantalla y clics) y otro llamando directamente a los puntos finales HTTP (API agent). El vision agent completó la tarea en 53 pasos y consumió aproximadamente 550,000 tokens, mientras que el API agent lo hizo en solo 8 llamadas y 12,000 tokens, resultando en un costo 45 veces mayor. La diferencia se atribuye a que los agentes de visión deben 'ver' la interfaz, renderizando cada estado intermedio, mientras que los agentes API reciben datos estructurados directamente. Aunque los modelos de visión más avanzados pueden reducir los errores por captura de pantalla, no disminuyen la cantidad de capturas necesarias. Este hallazgo sugiere que, para herramientas internas que se pueden modificar, el uso de APIs es una alternativa más eficiente y económica. El código del benchmark es de código abierto y está disponible en GitHub.

Temas

ia empresas

Etiquetas

reflex.dev agentes de visión apis inteligencia artificial benchmark claude sonnet langchain anthropic

Entidades mencionadas

PAPalash Awasthi person

Head of Growth at Dedalus Labs, Junior at Northeastern. · Experience: Dedalus Labs · Education: Northeastern University · Location: San Francisco · 500+ connections on LinkedIn.

react-admin Posters Galore creative_work

Claude Sonnet software

Smith person

Patricia Lee «Patti» Smith es una cantante, compositora, artista visual y escritora estadounidense. Apodada habitualmente «la madrina del punk», Smith es una de las artistas más influyentes de la músi

Ver en Wikipedia

Open Source group_movement

reflex-dev organization

En epistemología, y más específicamente, en la sociología del conocimiento, la reflexividad se refiere a las relaciones circulares entre la causa y el efecto, especialmente incrustadas en las estructu

Ver en Wikipedia

HTTP protocol_standard

El protocolo de transferencia de hipertexto es el protocolo de comunicación que permite las transferencias de información a través de archivos en la World Wide Web. Fue desarrollado por el World Wide

Ver en Wikipedia

State software

Haiku software

browser-use 0.12 software