La economía sorprendente de los sistemas con balanceo de carga

Fuentes: Surprising Economics of Load-Balanced Systems

En un sistema con c servidores idénticos atendidos por un balanceador de carga con cola infinita, donde la carga ofrecida crece linealmente con c para mantener constante la utilización por servidor, ¿cómo varía la latencia media observada por el cliente al aumentar c? La respuesta, contraintuitiva para muchos, es la opción A: la latencia media disminuye rápidamente y se aproxima asintóticamente a un segundo —el tiempo de servicio— a medida que crece el número de servidores.

El sistema se modela como una cola M/M/c de la teoría de colas, analizable mediante la fórmula C de Erlang. Con una carga ofrecida del 80 % de la capacidad total, un sistema de dos servidores encola alrededor del 13 % de las peticiones en su punto medio de saturación, mientras que uno de cinco solo encola el 3,6 % en la misma fracción de saturación. La mejora no se limita a la media: simulaciones Monte Carlo muestran que la mediana, el percentil 99 y el 99,9 también siguen una curva descendente similar, sin colas largas ocultas.

El resultado tiene implicaciones económicas relevantes para servicios en la nube: con más servidores se obtiene mejor latencia a igual utilización, o mayor utilización a igual latencia, manteniendo el mismo rendimiento por servidor. Buena parte de esa ganancia se materializa con valores modestos de c, lo que beneficia tanto a grandes plataformas como a despliegues pequeños. El análisis es robusto a variaciones del factor de carga del 80 %, aunque los supuestos de llegadas de Poisson y, sobre todo, de tiempo de servicio exponencial no son del todo realistas para servicios típicos, donde la distribución se asemeja más a log-normal.