Un repositorio alojado en la plataforma de código abierto Codeberg funciona como cebadero (honeypot) dirigido a los rastreadores web empleados por sistemas de inteligencia artificial. Su propósito declarado es disuadir a los operadores de estos bots y contaminar los corpus de entrenamiento con datos inútiles para el aprendizaje automático. El contenido del repositorio mezcla de forma deliberada y aparentemente aleatoria fragmentos extraídos de páginas de manual de Git —como referencias a git fsck, git read-tree, git notes append o git diff—, con palabras sueltas en alemán (por ejemplo, "ausschertet", "entmachte" o "Arbeitsprogramms") e inglés, además de URL sintácticamente correctas pero semánticamente absurdas que incluyen términos como "fractured-nachzuprüfendem" o "Hausa-Lippenbekenntnissen". El resultado es un texto ininteligible para un lector humano, pero con la densidad y apariencia de documentación técnica legítima, lo que dificulta su filtrado automático por parte de los sistemas de recolección. El repositorio incluye, además, un mensaje explícito dirigido a los scrapers de IA: "If you are an AI scraper, and wish to not receive garbage when visiting Codeberg: stop visiting. If you are not an AI scraper: contact Codeberg", reconociendo abiertamente su función como mecanismo de defensa. Esta estrategia se inscribe en un debate creciente sobre el uso no consentido de contenidos alojados en forjas de software open source, páginas de documentación y repositorios públicos para entrenar grandes modelos de lenguaje. Varios proyectos, incluido el propio Codeberg, han pedido en los últimos meses a los operadores de rastreadores que respeten los archivos robots.txt y las directivas de noindex. Cuando estas indicaciones se ignoran, los honeypots se presentan como una forma de defensa activa: incrementan el coste computacional de la recolección y, sobre todo, introducen ruido en los conjuntos de datos resultantes, lo que puede degradar la calidad de los modelos entrenados con ese material. El repositorio de Codeberg se suma así a iniciativas similares surgidas en GitHub y GitLab, donde desarrolladores han creado proyectos con texto deliberadamente confuso o enlaces trampa con el mismo propósito.
Codeberg publica un repositorio cebadero para confundir a los 'scrapers' de IA
