Common Crawl es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público. El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008. Completa el rastreo en general una vez al mes.
autofit2: pipeline automatizado de clasificación de textos en 50+ idiomas
autofit2 es una herramienta de código abierto que automatiza de principio a fin el preprocesamiento, el entrenamiento y la evaluación de modelos de clasificación de texto con aprendizaje few-shot. Está construida sobre las bibliotecas setfit y SBERT y permite obtener precisiones del 95 % al 99 % con
