Noticias que mencionan robots.txt

Amazonbot comenzará a respetar robots.txt a partir de junio de 2026

Amazon ha anunciado que su bot de rastreo web Amazonbot comenzará a respetar el archivo robots.txt a partir del lunes 15 de junio de 2026. La compañía envió una comunicación a editores informándoles que las preferencias de rastreo se gestionarán únicamente a través de las directivas estándar de la i

Cloudflare evalúa sitios web para la era de la IA

Cloudflare ha lanzado una nueva herramienta llamada “isitagentready.com” que permite a los propietarios de sitios web evaluar la preparación de sus páginas para la interacción con agentes de inteligencia artificial (IA). La herramienta, disponible desde hoy, analiza los sitios web en función de múlt

Miasma: herramienta anti-scraping para sitios web

Un desarrollador ha lanzado "Miasma", una herramienta de código abierto diseñada para ayudar a los sitios web a defenderse del scraping de datos por parte de empresas de inteligencia artificial. Miasma actúa como una trampa, redirigiendo el tráfico malicioso a un servidor que inyecta datos de entren

Cloudflare: Rastreo web completo con una sola API

Cloudflare ha lanzado una versión beta abierta de una nueva funcionalidad que permite a los usuarios rastrear sitios web completos con una sola llamada a la API. La herramienta, integrada en su servicio de Renderizado con Navegador, permite especificar una URL inicial y el sistema descubre automátic

Rastreador web indexa mil millones de páginas en 24 horas

Este artículo de Andrew Chan detalla la construcción y ejecución de un rastreador web a gran escala, capaz de indexar mil millones de páginas web en poco más de 24 horas con un presupuesto de alrededor de $462. El objetivo era modernizar el conocimiento existente sobre rastreo web, que data principa