Dimensionar un clúster de GPUs para servir modelos de lenguaje no requiere simulaciones costosas: con unos pocos datos del hardware y de la arquitectura del modelo se puede estimar el coste por usuario con operaciones básicas. Esta guía didáctica recorre, paso a paso, los tres ejes que rigen la inferencia de un LLM en producción: cómputo, ancho de banda de memoria y caché KV.
El texto parte de los parámetros de cualquier ficha técnica de GPU —throughput en TFLOP/s y ancho de banda en TB/s— para derivar el coste de una multiplicación de matrices, núcleo de toda red neuronal. A partir de ahí, introduce el funcionamiento auto-regresivo de los LLM y el mecanismo de atención, y muestra por qué, sin optimizaciones, la lectura desde VRAM se convierte en el cuello de botella: para generar un único token en un lote unitario se requieren unos 26 billones de operaciones de coma flotante frente a solo 1.700 millones de accesos a memoria.
La caché KV resuelve ese desajuste al reutilizar las claves y valores de los tokens ya procesados, reduciendo la lectura a unos 26 millones de accesos por token y devolviendo el equilibrio entre cómputo y memoria. Aplicando los datos de una NVIDIA B200 —8 TB/s de ancho de banda y 4.500 TFLOP/s en FP-8— el artículo calcula el techo teórico de usuarios concurrentes y analiza las restricciones reales de VRAM al servir un modelo denso de 32.000 millones de parámetros con ventana de contexto de 128.000 tokens. Se discute también el impacto de técnicas como Grouped-Query Attention y se apuntan referencias a optimizaciones adicionales (tiling, vLLM, Delta-Nets) para quien quiera profundizar.
