Miasma: herramienta anti-scraping para sitios web

Un desarrollador ha lanzado "Miasma", una herramienta de código abierto diseñada para ayudar a los sitios web a defenderse del scraping de datos por parte de empresas de inteligencia artificial. Miasma actúa como una trampa, redirigiendo el tráfico malicioso a un servidor que inyecta datos de entren

obscrd: código abierto contra bots que extraen contenido web

Un nuevo sistema de protección de contenido de código abierto llamado obscrd ha sido lanzado para combatir la extracción de datos por parte de scrapers y bots de inteligencia artificial. La herramienta, disponible en npm, busca proteger el contenido web al ofuscarlo para los bots mientras mantiene l

Cloudflare: Rastreo web completo con una sola API

Cloudflare ha lanzado una versión beta abierta de una nueva funcionalidad que permite a los usuarios rastrear sitios web completos con una sola llamada a la API. La herramienta, integrada en su servicio de Renderizado con Navegador, permite especificar una URL inicial y el sistema descubre automátic

Meta solicita robots.txt de instancia Forgejo: ¿qué busca?

Meta (Facebook) ha estado realizando repetidas solicitudes al archivo `robots.txt` de una instancia auto-alojada de Forgejo desde hace al menos cuatro días. El propietario de la instancia, Mikko Ahlroth, ha observado que el agente de usuario es `facebookexternalhit/1.1`, y las solicitudes provienen

Rastreador web indexa mil millones de páginas en 24 horas

Este artículo de Andrew Chan detalla la construcción y ejecución de un rastreador web a gran escala, capaz de indexar mil millones de páginas web en poco más de 24 horas con un presupuesto de alrededor de $462. El objetivo era modernizar el conocimiento existente sobre rastreo web, que data principa