Anubis: Web lucha contra la extracción de datos por IA

Fuentes: wiki.freecad.org, Websites Deploy 'Anubis' to Fight AI Scraping, Introducing Proof-of-Work Challenge, xeiaso.net

Anubis: la creciente batalla de los sitios web contra la extracción masiva de datos por parte de empresas de inteligencia artificial

El fenómeno del scraping agresivo llevado a cabo por compañías de inteligencia artificial ha alcanzado niveles sin precedentes, provocando caídas de servicio en numerosos sitios web y llevando a administradores de sistemas a buscar soluciones urgentes. Entre las respuestas más llamativas ha emergido Anubis, una herramienta de código abierto desarrollada por TecharoHQ que está ganando tracción como barrera de protección para servidores de todo tipo, desde wikis de proyectos de software libre hasta blogs personales de desarrolladores.

Anubis funciona mediante un esquema de Proof-of-Work (prueba de trabajo) inspirado en Hashcash, un sistema propuesto en los años noventa para combatir el spam en el correo electrónico. El mecanismo exige al visitante resolver un desafío computacional antes de acceder al contenido del sitio. Para un usuario individual, la carga adicional resulta prácticamente imperceptible; sin embargo, cuando un scraper intenta extraer miles o millones de páginas de forma masiva, el costo computacional se multiplica exponencialmente, haciendo que la operación resulte económicamente inviable para los agentes que automatizan la recolección de datos.

Según los mensajes desplegados por la propia herramienta en los sitios que la implementan —entre ellos wiki.freecad.org, code.idtech.space y xeiaso.net, según documentación disponible— los administradores explican que el objetivo es proteger los recursos del servidor contra lo que describen como "la plaga de las compañías de IA que scrapean agresivamente los sitios web". Estas prácticas, señalan, provocan caídas de servicio que afectan a todos los usuarios legítimos.

La versión más reciente documentada en las fuentes es la 1.19.1, según consta en el sitio code.idtech.space, lo que evidencia un desarrollo activo del proyecto. Anubis se distribuye de forma abierta a través del repositorio de GitHub de TecharoHQ y cuenta con documentación técnica propia donde se detallan los fundamentos del protocolo.

Sin embargo, los propios creadores reconocen las limitaciones de su solución. Anubis es descrito como "un compromiso" o "una solución temporal" —en una de las fuentes se utiliza el término "hack" para enfatizar su carácter paliativo—. La estrategia a largo plazo pasa por desarrollar sistemas más sofisticados de fingerprinting e identificación de navegadores headless, es decir, navegadores sin interfaz gráfica que son el vehículo habitual de los scrapers. Estos sistemas podrían, por ejemplo, detectar automatizaciones a través de particularidades en el renderizado de fuentes tipográficas, lo que permitiría en el futuro no presentar el desafío a usuarios con alta probabilidad de ser legítimos.

Otro aspecto relevante es la dependencia tecnológica de Anubis. La herramienta requiere el uso de características modernas de JavaScript, lo que genera fricciones con ciertos complementos de privacidad como JShelter, que desactivan precisamente estas funciones. Los administradores se ven obligados a pedir a los usuarios que desactiven temporalmente estos plugins para acceder al sitio, una situación que ilustra el dilema entre privacidad del usuario y protección del servidor.

El debate de fondo que Anubis pone sobre la mesa es el de la sostenibilidad de la infraestructura web abierta. Numerosos proyectos, especialmente en el ámbito del software libre y de código abierto, dependen de donaciones, trabajo voluntario y recursos limitados. Cuando empresas de inteligencia artificial utilizan sus contenidos para entrenar modelos sin compensación y, además, sobrecargan sus servidores hasta provocar caídas, se genera un agravio que ha movilizado a la comunidad. Publicaciones como The Libre News han documentado lo que denominan un "ataque" a la infraestructura FOSS (Free and Open Source Software) por parte de las compañías de IA.

En resumen, Anubis representa una respuesta pragmática y técnicamente ingeniosa a un problema que no muestra signos de remitir. Mientras las empresas de inteligencia artificial continúan necesitando enormes volúmenes de datos para entrenar y mejorar sus modelos, y los sitios web carecen de herramientas legales y técnicas efectivas para negociar el uso de sus contenidos, soluciones intermedias como la prueba de trabajo están llamadas a proliferar. La pregunta abierta es si estas medidas serán suficientes o si la presión derivada del scraping masivo terminará obligando a una reforma más profunda en la relación entre los modelos de IA y la web abierta.