OpenAI presenta nuevo protocolo MRC con AMD, Intel, Microsoft y NVIDIA para optimizar redes de IA

Fuentes: Supercomputer networking to accelerate large scale AI training
OpenAI presenta nuevo protocolo MRC con AMD, Intel, Microsoft y NVIDIA para optimizar redes de IA
Imagen generada con IA

OpenAI presentó este martes MRC (Multipath Reliable Connection), un nuevo protocolo de red desarrollado junto con AMD, Broadcom, Intel, Microsoft y NVIDIA para optimizar el rendimiento de las redes en supercomputadoras de inteligencia artificial a gran escala. El protocolo, ya implementado en los mayores supercomputadores de OpenAI -incluidos los de Oracle Cloud Infrastructure en Abilene, Texas, y los supercomputadores Fairwater de Microsoft-, permite distribuir transferencias de datos entre cientos de rutas simultáneas, evitando congestión y recuperando fallos de red en microsegundos. El desarrollo responde a un desafío crítico: entrenar modelos de IA frontier requiere millones de transferencias de datos entre GPUs, donde un fallo de red o enlace puede detener todo el proceso de entrenamiento, causando esperas costosas en tiempo y recursos computacionales. MRC extiende el estándar RDMA over Converged Ethernet (RoCE) y utiliza técnicas del Ultra Ethernet Consortium con enrutamiento de origen basado en SRv6. La especificación técnica ha sido liberada a través del Open Compute Project (OCP) para su uso por la industria.