03 Jul 2026 · Original en inglés · Resumen IA

Wafer logra 2.626 tok/s por nodo en AMD MI355X sirviendo GLM 5.2 con la mitad de coste que Blackwell

Fuentes: Wafer hits 2,626 tok/s/node on AMD MI355X for GLM 5.2 at over 2x lower cost than Blackwell

Wafer, proveedor de inferencia, ha anunciado resultados de rendimiento del modelo GLM 5.2 sobre GPUs AMD Instinct MI355X, alcanzando 2.626 tokens por segundo por nodo en una carga agregada y 213 tokens por segundo en flujo único, con un coste por dólar más de dos veces inferior al de un sistema basado en NVIDIA Blackwell. Las pruebas se realizaron con una entrada de 20.000 tokens y 1.000 de salida, con una tasa de acierto de caché del 60%, y comparan un nodo MI355X frente a un nodo B200.

Según la compañía, el MI355X cuesta alrededor de 2,75 veces menos que el B300 manteniendo unas especificaciones similares. Para igualar el rendimiento de Blackwell, Wafer aplicó la cuantización MXFP4 mediante AMD Quark —lossless frente a la FP8 oficial de z-ai en GPQA-Diamond, tau2 y GSM8K— y eligió sglang como motor de inferencia, tras descartar vLLM y ATOM por incompatibilidades con la ruta MXFP4 + GlmMoeDsa o por degradación en contexto largo.

Dos ajustes desbloquearon la decodificación especulativa: añadir a la lista de exclusión de cuantización de Quark el nombre del módulo del MTP head y añadir un guard USE_ROCM en un kernel de metadatos que incluía cuda_runtime.h. Cambios complementarios como el uso de --kv-cache-dtype fp8_e4m3 y la afinación manual de los kernels MoE fp4 (model_dim 6144, moe_inter 2048, E=256, topk=8) elevaron el rendimiento de TP8 a TP4×DP2, permitiendo alcanzar el techo medido. La infraestructura utilizada procede de TensorWave.

Temas

empresas

Etiquetas

amd nvidia amd mi355x amd instinct amd rocm amd quark glm 5.2 sglang mxfp4 speculative decoding

Enlaces

Artificial Analysis standards artificialanalysis.ai