autofit2: pipeline automatizado de clasificación de textos en 50+ idiomas

Fuentes: GitHub - neospe/autofit2: Automated end-to-end data preprocessing, model training, and evaluation pipeline

autofit2 es una herramienta de código abierto que automatiza de principio a fin el preprocesamiento, el entrenamiento y la evaluación de modelos de clasificación de texto con aprendizaje few-shot. Está construida sobre las bibliotecas setfit y SBERT y permite obtener precisiones del 95 % al 99 % con apenas unas decenas de ejemplos etiquetados.

La herramienta incorpora modelos preentrenados para 20 idiomas y corpora de evaluación para más de 50, con capacidad de escalar a más de 100 mediante datos de Common Crawl. Funciona a partir de un único archivo de configuración en formato JSON en el que se definen rutas de datos, parámetros del modelo, idiomas, tareas y objetivos de fine-tuning, lo que facilita la reproducibilidad. La ejecución se realiza con un comando (python train.py myproject.json) y admite reanudación en caso de interrupción.

Entre los artefactos que genera se encuentran un modelo empaquetado listo para desplegar, una model card con detalles de entrenamiento, uso previsto, métricas de rendimiento y evaluación de sesgos, así como un registro de emisiones de CO₂. El sistema admite tres tipos de objetivos: all (entrenamiento con todo el conjunto de datos para uso en producción), custom (modelos personalizados con identificadores alfanuméricos) y benchmark 1..N (evaluación contra conjuntos de referencia sin generar artefactos de modelo).

Un ejemplo práctico incluido en la documentación muestra cómo configurar una pipeline de moderación de texto en griego (el) para identificación de lenguaje ofensivo, basada en el corpus OffensEval 2020 y el modelo paraphrase-multilingual-MiniLM-L12-v2. autofit2 resulta especialmente útil para equipos de PLN, comunidades de investigación y desarrolladores que necesitan entrenar clasificadores multilingües con pocos datos y de manera reproducible.