Un LLM histórico desde cero: modelo entrenado solo con textos anteriores a 1900

Fuentes: Making a vintage LLM from scratch

El desarrollador croqaz ha creado un modelo de lenguaje de gran tamaño (LLM) de 340 millones de parámetros, denominado Vintage-LLM, entrenado exclusivamente con textos publicados antes del año 1900. El proyecto demuestra que es posible construir un LLM funcional con recursos limitados (un PC de consumo y unos 80 dólares en GPU en la nube) y con un enfoque de código abierto.

El autor partió de la idea de Hayk Grigorian, quien entrenó un modelo únicamente con textos londinenses del siglo XIX. A partir de ahí, desarrolló sus propios scripts de procesamiento de datos, tokenización, preentrenamiento y ajuste fino. El modelo se basa en la arquitectura Llama y tiene un corte de conocimiento fijado en el año 1900, lo que lo convierte en un LLM histórico (o «time-locked»).

El proceso más laborioso fue la preparación del conjunto de datos. El autor recopiló documentos de fuentes como Project Gutenberg, Oxford Text Archive, Internet Archive y colecciones de la Biblioteca Británica, filtrando solo aquellos en inglés y con fecha anterior a 1900. La desduplicación y limpieza de artefactos OCR supuso un esfuerzo considerable. Además, creó un conjunto de datos auxiliar (Book-Metadata) para rastrear títulos, autores y fuentes.

El preentrenamiento se realizó primero en el PC local (AMD Ryzen 7, 64 GB RAM, Radeon RX 9070) con modelos pequeños de prueba, y el modelo final de 340M se entrenó en servicios en la nube como RunPod y Vast.ai. El autor reconoce que el modelo es un juguete (hobby) y que puede alucinar o generar contenido históricamente inexacto u ofensivo según los estándares actuales, ya que no se realizó alineamiento (safety alignment) para preservar la precisión histórica.

El código completo está disponible en GitHub y el modelo en HuggingFace. El autor anima a la comunidad a explorar modelos similares ya existentes, como Violet-1B4-Chat, GPT-1900 o Talkie, y destaca que el proyecto le permitió aprender en profundidad el proceso completo de construcción de un LLM.