04 Jun 2026 · Original en inglés · Artículo

Los retos de ejecutar DeepSeek-V4-Flash en las AMD MI300X

Fuentes: Bringing up DeepSeek-V4-Flash on AMD MI300X

La empresa Doubleword documenta el trabajo técnico realizado para ejecutar el modelo DeepSeek-V4-Flash sobre las tarjetas aceleradoras AMD MI300X, una tarea que, según la compañía, no funciona de forma predeterminada en vLLM a principios de mayo de 2026.

La MI300X, lanzada en diciembre de 2023, ofrece 192 GB de HBM3 por tarjeta y un rendimiento FP8 comparable al de la NVIDIA H100, pero a un precio de lista aproximadamente la mitad y con disponibilidad inmediata en alquiler. Su principal limitación es el software. El artículo describe tres grandes problemas técnicos encontrados durante la puesta en marcha.

El primero es la diferencia de dialecto FP8. Mientras los chips AMD más recientes (MI325, MI350, MI355X) usan el estándar OCP, la MI300X solo soporta el dialecto «fnuz» (finite, nans, unsigned zero). Ambos comparten la disposición de bits, pero difieren en el sesgo del exponente en una unidad, lo que produce resultados desviados exactamente por un factor de dos. La mayoría de las rutas FP8 en vLLM distinguen entre e4m3 y e5m2, pero no entre fnuz y OCP.

El segundo problema son las rutas de atención optimizadas. AITER, la biblioteca de kernels ajustados de AMD, no tiene cobertura completa para los núcleos CDNA3 (gfx942) de la MI300X. Algunas operaciones (paged MQA logits, sparse MLA prefill, sparse MLA decode) carecen de soporte, mientras que otras rutas existen pero fallan específicamente en gfx942. La solución consiste en un helper específico de ROCm que despacha a AITER cuando es posible y cae a Triton en caso contrario.

El tercer reto son los HIP graphs, análogos a los CUDA graphs de NVIDIA. La región capturada debe ser una función pura de las entradas del dispositivo, sin lecturas del host ni asignaciones dinámicas. Los kernels AITER cumplen este requisito por construcción, pero algunos kernels Triton lo incumplieron y hubo que reconstruir metadatos como tensores estáticos. El artículo también menciona problemas menores, como un error de enrutamiento MoE condicionado a la disponibilidad global de AITER en ROCm, pero el texto queda truncado antes de detallarlos. Doubleword acompaña la publicación con commits en un repositorio público de vLLM que documentan cada corrección.