Common Crawl es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público. El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008. Completa el rastreo en general una vez al mes.

Ver en Wikipedia

Noticias que mencionan Common Crawl

DreamHost protege sitios web con archivo agents.txt contra scrapeo de IA

DreamHost añade un archivo agents.txt a todos los sitios web alojados en sus servidores VPS. El archivo apareció automáticamente el 7 de mayo en la raíz de cada sitio, siendo una implementación similar al estándar robots.txt pero destinada a regular el comportamiento de agentes de IA. El contenido e

Google limita acceso gratuito a su índice de búsqueda

Google anunció que discontinuará el acceso gratuito a su índice de búsqueda web para desarrolladores a partir de enero de 2027. La medida afecta principalmente a aquellos que utilizan el índice completo para alimentar sus propios motores de búsqueda, limitando ahora la opción gratuita a un máximo de

IA difunde enfermedad inventada: experimento revela riesgo

Investigadores de la Universidad de Gotemburgo, Suecia, han revelado un experimento alarmante que pone de manifiesto la vulnerabilidad de los modelos de lenguaje de inteligencia artificial (LLM) a la desinformación. La científica Almira Osmanovic Thunström inventó una condición médica ficticia llama

Fallo en Google expone claves API tras cambio en Gemini

Un fallo de seguridad recientemente descubierto en Google ha expuesto claves API que, sin el conocimiento de los desarrolladores, han otorgado acceso a la API Gemini, una plataforma de inteligencia artificial generativa. La vulnerabilidad, revelada por Truffle Security, surge de una práctica de Goog

Guía de Ingeniería de Datos para Modelos de IA

En la era de los grandes modelos de lenguaje (LLM), la calidad de los datos se ha convertido en el factor determinante que limita su rendimiento. El libro "Data Engineering for LLMs" de Datascale-AI aborda esta problemática, ofreciendo una guía completa y práctica para la ingeniería de datos necesar