Cloudflare ha lanzado una versión beta abierta de una nueva funcionalidad que permite a los usuarios rastrear sitios web completos con una sola llamada a la API. La herramienta, integrada en su servicio de Renderizado con Navegador, permite especificar una URL inicial y el sistema descubre automáticamente las páginas, las renderiza en un navegador sin interfaz gráfica (headless browser) y devuelve el contenido en múltiples formatos: HTML, Markdown y JSON estructurado. Esta funcionalidad es útil para tareas como el entrenamiento de modelos de inteligencia artificial, la construcción de pipelines RAG (Retrieval-Augmented Generation) y la investigación o monitorización de contenido web.
El proceso de rastreo es asíncrono, proporcionando un ID de trabajo para verificar el progreso. La herramienta ofrece controles de alcance, como la profundidad de rastreo y límites de páginas, así como soporte para sitemaps, descubrimiento automático de URLs y rastreo incremental para optimizar el tiempo y los costos. También incluye una opción para obtener HTML estático sin renderizado y respeta las directivas del archivo robots.txt. La nueva funcionalidad está disponible en los planes gratuitos y de pago de Cloudflare Workers.
