26 Jun 2026 · Original en inglés · Artículo

autofit2: pipeline automatizado de clasificación de textos en 50+ idiomas

Fuentes: GitHub - neospe/autofit2: Automated end-to-end data preprocessing, model training, and evaluation pipeline

autofit2 es una herramienta de código abierto que automatiza de principio a fin el preprocesamiento, el entrenamiento y la evaluación de modelos de clasificación de texto con aprendizaje few-shot. Está construida sobre las bibliotecas setfit y SBERT y permite obtener precisiones del 95 % al 99 % con apenas unas decenas de ejemplos etiquetados.

La herramienta incorpora modelos preentrenados para 20 idiomas y corpora de evaluación para más de 50, con capacidad de escalar a más de 100 mediante datos de Common Crawl. Funciona a partir de un único archivo de configuración en formato JSON en el que se definen rutas de datos, parámetros del modelo, idiomas, tareas y objetivos de fine-tuning, lo que facilita la reproducibilidad. La ejecución se realiza con un comando (python train.py myproject.json) y admite reanudación en caso de interrupción.

Entre los artefactos que genera se encuentran un modelo empaquetado listo para desplegar, una model card con detalles de entrenamiento, uso previsto, métricas de rendimiento y evaluación de sesgos, así como un registro de emisiones de CO₂. El sistema admite tres tipos de objetivos: all (entrenamiento con todo el conjunto de datos para uso en producción), custom (modelos personalizados con identificadores alfanuméricos) y benchmark 1..N (evaluación contra conjuntos de referencia sin generar artefactos de modelo).

Un ejemplo práctico incluido en la documentación muestra cómo configurar una pipeline de moderación de texto en griego (el) para identificación de lenguaje ofensivo, basada en el corpus OffensEval 2020 y el modelo paraphrase-multilingual-MiniLM-L12-v2. autofit2 resulta especialmente útil para equipos de PLN, comunidades de investigación y desarrolladores que necesitan entrenar clasificadores multilingües con pocos datos y de manera reproducible.

Temas

desarrollo

Etiquetas

autofit2 few-shot learning text classification multilingual nlp setfit sbert pipeline automation model card github neospe

Entidades mencionadas

all-MiniLM-L6-v2 software

autofit2 software

GitHub organization

GitHub es una plataforma en línea utilizada para alojar y gestionar proyectos de software, incluyendo el código fuente de Secluso, la startup de privacidad que ha lanzado un sistema de seguridad para

Ver en Wikipedia

setfit software

SBERT software

paraphrase-multilingual-MiniLM-L12-v2 software

Common Crawl organization

Common Crawl es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público. El archivo web de Common Crawl consta de petab

Ver en Wikipedia

neospe person

Neon Genesis Evangelion , también conocida simplemente como Evangelion, o Eva, es una serie de anime creada por el estudio Gainax, animada por Tatsunoko Production y dirigida por Hideaki Anno. La hist

Ver en Wikipedia