Un nuevo conjunto de herramientas llamado "browser-harness" permite que los modelos de lenguaje grandes (LLM) automaticen tareas de navegación web con una capacidad de auto-corrección sin precedentes. Desarrollado por Browser-Use y disponible en GitHub, el sistema elimina la necesidad de frameworks o recetas predefinidas, conectándose directamente al navegador Chrome a través de un único WebSocket. La herramienta se distingue por su capacidad de generar código para completar tareas, incluso escribiendo funciones personalizadas sobre la marcha, como se demostró con la creación de una función para subir archivos.
El objetivo es proporcionar a los LLM una libertad total para interactuar con la web, abriendo posibilidades para tareas automatizadas complejas y discretas. La plataforma ofrece un nivel gratuito con tres navegadores concurrentes y funcionalidades como la resolución de captchas. Los usuarios pueden obtener una clave API o permitir que el agente se registre automáticamente. Se anima a la comunidad a contribuir con "domain skills", que son archivos que enseñan al agente a navegar sitios web específicos, y que el propio agente genera automáticamente a partir de la experiencia. El proyecto busca simplificar la creación de agentes web que realmente aprenden y se adaptan a las condiciones cambiantes de la web.
