nvidia y unsloth aceleran el entrenamiento de IA

Fuentes: nvidia and unsloth accelerate llm training by 25% with new optimizations

Nvidia y Unsloth han colaborado para acelerar el entrenamiento de modelos de lenguaje grandes (LLM) en un 25%, según un anuncio reciente. La optimización se centra en la eliminación de cuellos de botella ocultos en el proceso de entrenamiento, específicamente en tareas de metadatos y la reutilización de información en cada iteración. El enfoque principal es evitar la reconstrucción repetida de datos, aprovechando técnicas como el almacenamiento en caché de secuencias empaquetadas y la paralelización de operaciones de copia y cálculo. Las mejoras incluyen optimizaciones en argsort y bincount, reduciendo la necesidad de cálculos repetidos y minimizando las sincronizaciones entre la CPU y la GPU. Los resultados muestran mejoras significativas en el paso hacia adelante (forward pass), con aumentos de hasta el 43.3% en algunos casos, y mejoras más modestas en el paso hacia atrás (backward pass). La implementación también incluye una optimización de 'smart checkpointing' para reducir la latencia de la recarga de activaciones, utilizando un doble buffering para superponer la copia de datos con el cálculo. El aumento de velocidad es consistente en modelos más grandes, con un bajo costo adicional de memoria.