IA: Nuevo método agiliza entrenamiento a gran escala

Fuentes: Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

El entrenamiento de modelos de inteligencia artificial (IA) de vanguardia, como los grandes modelos de lenguaje (LLM), tradicionalmente requiere sistemas altamente sincronizados y acoplados, lo que implica una logística compleja a gran escala. Google DeepMind ha presentado Decoupled DiLoCo (Distributed Low-Communication), una nueva arquitectura que aborda este desafío, permitiendo el entrenamiento de modelos a través de centros de datos distribuidos, incluso a grandes distancias, con menor ancho de banda y mayor resiliencia.

DiLoCo se basa en dos avances previos: Pathways, un sistema de IA distribuido con flujo de datos asíncrono, y la primera versión de DiLoCo, que redujo significativamente el ancho de banda necesario para el entrenamiento distribuido. Decoupled DiLoCo combina estos conceptos, dividiendo el entrenamiento en “islas” de computación desacopladas. Esto significa que si un chip falla en una isla, el resto del sistema puede continuar aprendiendo sin interrupción, lo que aumenta la resiliencia. La arquitectura es incluso capaz de recuperarse de fallos, reintegrando las unidades de aprendizaje que se han desconectado.

Una de las ventajas clave de Decoupled DiLoCo es su eficiencia. El equipo de Google DeepMind entrenó un modelo de 12 mil millones de parámetros a través de cuatro regiones de EE. UU. utilizando solo 2-5 Gbps de red de área amplia, superando a los métodos de sincronización convencionales más de 20 veces. Esto se logra integrando la comunicación en períodos más largos de computación, evitando los cuellos de botella que causan retrasos.

Además de la resiliencia y la eficiencia, Decoupled DiLoCo permite la combinación de diferentes generaciones de hardware, como las TPUs v6e y v5p, en una sola ejecución de entrenamiento. Esto extiende la vida útil del hardware existente y aumenta la capacidad de cómputo total disponible. La capacidad de entrenar a través de generaciones de hardware es particularmente útil porque las nuevas generaciones no siempre están disponibles en todas las ubicaciones simultáneamente. En resumen, Decoupled DiLoCo representa un avance significativo en la infraestructura de entrenamiento de IA, permitiendo una mayor flexibilidad, resiliencia y eficiencia en el desarrollo de modelos de vanguardia.