18 May 2026 · Original en inglés · Artículo

Sistema Stratum combina DRAM 3D apilada para acelerar inferencia de modelos MoE

Fuentes: Stratum: System-Hardware Co-Design with Tiered Monolithic 3D-Stackable DRAM for Efficient MoE Serving | Proceedings of the 58th IEEE/ACM International Symposium on Microarchitecture

La propuesta de Stratum es un sistema de diseño conjunto hardware‑software que busca acelerar la inferencia de modelos de inteligencia artificial del tipo Mixture‑of‑Experts (MoE) mediante el uso de memorias DRAM monoliticas apiladas en 3D organizadas en varios niveles de capacidad y ancho de banda. La idea central de Stratum es resolver dos problemas históricos de las arquitecturas de alto rendimiento: la capacidad de memoria limitada y la constancia de la latencia de acceso a DRAM. Para ello se propone una DRAM tridimensional con ocho niveles (tiers) de 4 GB cada uno, lo que ofrece un total de 32 GB de capacidad por chip y un ancho de banda agregado de entre 19 y 34 TB/s, cifra muy superior a la de las memorias HBM convencionales. Cada chip integra 16 canales de 64 bits, mientras que la interfaz hacia los elementos de procesamiento permite 1024 bits de datos por ciclo a 6,4 Gbps por pin, igualando la velocidad de HBM3.

El sistema de cómputo está formado por un procesador NMP con 16 unidades de procesamiento (PU), cada una dotada de 16 elementos de tensor (PE) que ejecutan operaciones MAC en formato FP16, proporcionando un pico de rendimiento de 128 TFLOPS con un consumo energético de solo 43 W. Las PU comparten una memoria SRAM de 1,25 MB y un motor de funciones especiales SIMD de 256 vías, conectados mediante una red en anillo que alcanza 128 GB/s por enlace. La tabla de distribución de datos (tiering table) permite que las capas de la red neuronal se almacenen de forma óptima en los distintos niveles de DRAM, minimizando los accesos a memoria externa y reduciendo el impacto negativo de las operaciones de refresco (refresh).

En la práctica, Stratum está orientado a cargas de trabajo de computación de alto rendimiento (HPC) que son bandwidth‑bound, como la inferencia de modelos de lenguaje grandes basados en MoE. Empresas que despliegan este tipo de modelos podrían beneficiarse de la alta densidad de memoria y del enorme ancho de banda para mantener múltiples expertos activos simultáneamente, lo que reduce la latencia y mejora la utilización de los recursos de cómputo.

No obstante, hay consideraciones importantes. La complejidad del diseño en 3D y la necesidad de coordinar múltiples niveles de memoria incrementan los costos de fabricación y de validación. Además, aunque la tecnología de estratificación alivia el problema de latencia, esta sigue siendo un límite fundamental del silicio DRAM y las operaciones de refresco pueden generar pausas si el sistema no planifica correctamente los intervalos de actualización. Alternativas como HBM2e, LPDDR5 o arquitecturas de procesamiento en memoria (PIM) ofrecen distintos balances entre capacidad, consumo y costo, por lo que la elección de Stratum dependerá del perfil específico de la aplicación y de la disposición a invertir en una integración personalizada.

Etiquetas

3d stacked dram mixture of experts high bandwidth memory ai inference memory bandwidth bound workloads hpc tiered memory architecture processing-in-memory system-on-chip design

Entidades mencionadas

IEEE/ACM organization

La IEEE/ACM Transactions on Networking es una publicación científica focalizada en las redes de comunicación. Es patrocinada por la IEEE Communications Society, la IEEE Computer Society y la ACM Speci

Ver en Wikipedia

AI organization

El Airbus A330 es un avión comercial a reacción, bimotor y de fuselaje ancho, desarrollado por Airbus SAS, actualmente propiedad de la corporación europea Airbus SE. Las distintas versiones del A330 t

Ver en Wikipedia

Mono3D DRAM software

HBM3 software

FP16 software

Stratum NMP Processor software

ACM location

Acmella oleracea es una especie de planta con flor de la familia de las Asteraceae, también conocida como flor eléctrica, paracress o hierba de los dientes debido a que sus hojas poseen agentes analgé

Ver en Wikipedia

New York location

Nueva York, a menudo llamada Ciudad de Nueva York, es la ciudad más poblada y visitada de los Estados Unidos y una de las más densamente pobladas a nivel mundial. Desde finales del siglo xix es uno de

Ver en Wikipedia

United States location

Estados Unidos, oficialmente Estados Unidos de América, es una federación constituida en una república constitucional compuesta por cincuenta estados y un distrito federal. Limita al norte con Canadá

Ver en Wikipedia

DRAM hardware