Wafer, proveedor de inferencia, ha anunciado resultados de rendimiento del modelo GLM 5.2 sobre GPUs AMD Instinct MI355X, alcanzando 2.626 tokens por segundo por nodo en una carga agregada y 213 tokens por segundo en flujo único, con un coste por dólar más de dos veces inferior al de un sistema basado en NVIDIA Blackwell. Las pruebas se realizaron con una entrada de 20.000 tokens y 1.000 de salida, con una tasa de acierto de caché del 60%, y comparan un nodo MI355X frente a un nodo B200.
Según la compañía, el MI355X cuesta alrededor de 2,75 veces menos que el B300 manteniendo unas especificaciones similares. Para igualar el rendimiento de Blackwell, Wafer aplicó la cuantización MXFP4 mediante AMD Quark —lossless frente a la FP8 oficial de z-ai en GPQA-Diamond, tau2 y GSM8K— y eligió sglang como motor de inferencia, tras descartar vLLM y ATOM por incompatibilidades con la ruta MXFP4 + GlmMoeDsa o por degradación en contexto largo.
Dos ajustes desbloquearon la decodificación especulativa: añadir a la lista de exclusión de cuantización de Quark el nombre del módulo del MTP head y añadir un guard USE_ROCM en un kernel de metadatos que incluía cuda_runtime.h. Cambios complementarios como el uso de --kv-cache-dtype fp8_e4m3 y la afinación manual de los kernels MoE fp4 (model_dim 6144, moe_inter 2048, E=256, topk=8) elevaron el rendimiento de TP8 a TP4×DP2, permitiendo alcanzar el techo medido. La infraestructura utilizada procede de TensorWave.
