UCCL-EP es un proyecto de software descrito en un artículo reciente y abordado en una entrada de blog de Doubleword que busca reproducir las primitivas de comunicación experto-paralelo (EP) de la biblioteca DeepEP de DeepSeek, originalmente diseñadas para hardware de NVIDIA, sobre cualquier combinación de acelerador y tarjeta de red (NIC). DeepEP se apoya en NVSHMEM y en IBGDA, un mecanismo que permite a la propia GPU manejar las colas y el «doorbell» de la NIC para emitir escrituras RDMA, señales de ordered-signal y fences con la latencia más baja posible. El problema es que NVSHMEM solo funciona en GPUs de NVIDIA e IBGDA solo en NICs de NVIDIA, lo que crea un bloqueo para centros de datos heterogéneos (por ejemplo, AMD MI300X con Slingshot en Isambard-AI, o EFA de AWS).
UCCL-EP resuelve esta incompatibilidad conservando intacto el contrato de tres primitivas (put_nbi, amo_nonfetch_add y quiet) y reimplementando las funciones de NVSHMEM/IBGDA sobre un transporte genérico. La estrategia consiste en que la GPU escriba comandos de 16 bytes (opcode, rango destino, tamaño y direcciones en un heap simétrico) en un ring buffer en memoria host fijada, y un hilo proxy en la CPU los recoge y los entrega a la NIC. El quiet se implementa esperando a que el índice de consumo del ring supere el punto de envío. De este modo, los kernels de dispatch y combine de DeepEP se compilan prácticamente sin cambios contra la shim de UCCL.
El artículo describe el problema MxN que afrontan los hyperscalers al combinar GPUs y NICs de distintos proveedores, repasa la anatomía del mecanismo IBGDA original y detalla el formato de comando, el heap simétrico y el bucle del proxy. Para Doubleword, interesado en ejecutar inferencia Mixture-of-Experts con la mejor relación tokens/precio sobre hardware no-NVIDIA, UCCL-EP es la pieza que permite usar kernels estilo DeepEP en Isambard-AI y, en el futuro, en clústeres de AMD con Slingshot o Broadcom.
