Noruega entrena IA con 2 petabytes de Huawei

Fuentes: Norway’s 2 petabytes of Huawei flash storage and LLM training
Noruega entrena IA con 2 petabytes de Huawei
Imagen generada con IA

La Biblioteca Nacional de Noruega está desarrollando un modelo de lenguaje extenso (LLM) que comprende el idioma noruego, utilizando 2 petabytes de almacenamiento flash Huawei OceanStor Dorado para alimentar su canal de datos de entrenamiento de IA. Esta iniciativa surge de la necesidad de tener un LLM soberano que refleje la cultura, historia y noticias locales, algo que los modelos globales en inglés no pueden ofrecer. La Biblioteca, con la tarea encomendada por el Ministerio de Cultura, posee la colección digital más grande de contenido noruego, incluyendo libros, periódicos y páginas web, acumulando un total de 60 PB de datos.

El principal desafío no ha sido la capacidad de cómputo, sino la calidad de los datos, su limpieza y el rendimiento del canal de datos. El proceso implica varias etapas, desde la ingesta y limpieza de datos hasta la normalización y validación, antes de enviarlos al superordenador nacional Sigma2 Olivia para el entrenamiento. La Biblioteca ha tenido que desarrollar sus propias soluciones para mover grandes conjuntos de datos desde sistemas de archivo de baja latencia a sistemas de alto rendimiento para la IA. Además, se están abordando desafíos relacionados con la evaluación del modelo, la gobernanza de su acceso y la orquestación de los diferentes sistemas involucrados. La experiencia noruega destaca la importancia de tener LLMs que reflejen la identidad cultural y lingüística de cada nación, y la necesidad de custodios para estos sistemas, más allá de los simples constructores.