Sistema Stratum combina DRAM 3D apilada para acelerar inferencia de modelos MoE

Fuentes: Stratum: System-Hardware Co-Design with Tiered Monolithic 3D-Stackable DRAM for Efficient MoE Serving | Proceedings of the 58th IEEE/ACM International Symposium on Microarchitecture
Sistema Stratum combina DRAM 3D apilada para acelerar inferencia de modelos MoE
Imagen generada con IA

La propuesta de Stratum es un sistema de diseño conjunto hardware‑software que busca acelerar la inferencia de modelos de inteligencia artificial del tipo Mixture‑of‑Experts (MoE) mediante el uso de memorias DRAM monoliticas apiladas en 3D organizadas en varios niveles de capacidad y ancho de banda. La idea central de Stratum es resolver dos problemas históricos de las arquitecturas de alto rendimiento: la capacidad de memoria limitada y la constancia de la latencia de acceso a DRAM. Para ello se propone una DRAM tridimensional con ocho niveles (tiers) de 4 GB cada uno, lo que ofrece un total de 32 GB de capacidad por chip y un ancho de banda agregado de entre 19 y 34 TB/s, cifra muy superior a la de las memorias HBM convencionales. Cada chip integra 16 canales de 64 bits, mientras que la interfaz hacia los elementos de procesamiento permite 1024 bits de datos por ciclo a 6,4 Gbps por pin, igualando la velocidad de HBM3.

El sistema de cómputo está formado por un procesador NMP con 16 unidades de procesamiento (PU), cada una dotada de 16 elementos de tensor (PE) que ejecutan operaciones MAC en formato FP16, proporcionando un pico de rendimiento de 128 TFLOPS con un consumo energético de solo 43 W. Las PU comparten una memoria SRAM de 1,25 MB y un motor de funciones especiales SIMD de 256 vías, conectados mediante una red en anillo que alcanza 128 GB/s por enlace. La tabla de distribución de datos (tiering table) permite que las capas de la red neuronal se almacenen de forma óptima en los distintos niveles de DRAM, minimizando los accesos a memoria externa y reduciendo el impacto negativo de las operaciones de refresco (refresh).

En la práctica, Stratum está orientado a cargas de trabajo de computación de alto rendimiento (HPC) que son bandwidth‑bound, como la inferencia de modelos de lenguaje grandes basados en MoE. Empresas que despliegan este tipo de modelos podrían beneficiarse de la alta densidad de memoria y del enorme ancho de banda para mantener múltiples expertos activos simultáneamente, lo que reduce la latencia y mejora la utilización de los recursos de cómputo.

No obstante, hay consideraciones importantes. La complejidad del diseño en 3D y la necesidad de coordinar múltiples niveles de memoria incrementan los costos de fabricación y de validación. Además, aunque la tecnología de estratificación alivia el problema de latencia, esta sigue siendo un límite fundamental del silicio DRAM y las operaciones de refresco pueden generar pausas si el sistema no planifica correctamente los intervalos de actualización. Alternativas como HBM2e, LPDDR5 o arquitecturas de procesamiento en memoria (PIM) ofrecen distintos balances entre capacidad, consumo y costo, por lo que la elección de Stratum dependerá del perfil específico de la aplicación y de la disposición a invertir en una integración personalizada.