DreamHost protege sitios web con archivo agents.txt contra scrapeo de IA

Fuentes: New agents.txt file found on DreamHost | K-Squared Ramblings
DreamHost protege sitios web con archivo agents.txt contra scrapeo de IA
Imagen generada con IA

DreamHost añade un archivo agents.txt a todos los sitios web alojados en sus servidores VPS. El archivo apareció automáticamente el 7 de mayo en la raíz de cada sitio, siendo una implementación similar al estándar robots.txt pero destinada a regular el comportamiento de agentes de IA. El contenido establece políticas claras: prohíbe el entrenamiento de modelos de lenguaje con el contenido del sitio, permite la generación aumentada de retrieve-augmented generation (RAG), pero rechaza acciones automatizadas de IA. Además, bloquea el acceso a carpetas sensibles como /admin/, /config/, /wp-admin/ y archivos de configuración como /.env. Aunque el archivo sigue el estándar agent-manifest.txt (anteriormente propuesto como agents.txt), DreamHost lo implementó retroactivamente sin avisar a los usuarios, lo cual ha generado frustración en la comunidad. Los expertos valoran positivamente las políticas de privacidad incluidas, pero critican la falta de comunicación previa.