Marc Brooker, ingeniero de AWS y autor del blog, explica por qué las métricas internas de un servicio web (latencia media y MTTR) suelen pintar un panorama mucho más optimista que el que perciben los usuarios. El artículo parte de dos escenas cotidianas: Alice se queja de que un servicio tarda alrededor de un segundo, aunque los registros indican una media de 100 ms por petición; Alex asegura que las caídas duran cerca de una hora, mientras que el equipo presume de un MTTR inferior a un minuto. Las dos partes tienen razón, porque miden el tiempo con unidades distintas: los ingenieros cuentan peticiones o incidentes, mientras que los usuarios cuentan segundos y minutos, lo que otorga un peso desproporcionado a los eventos largos.
Brooker enmarca el fenómeno en la llamada paradoja de la inspección: cuando un cliente toma una muestra aleatoria en el tiempo, es más probable que caiga justo en medio de una operación prolongada, de modo que su experiencia está dominada por la cola pesada de la distribución, no por la mediana. Para visualizarlo, el post incluye una simulación interactiva que ajusta una distribución log-normal a partir de la mediana y el percentil 99 introducidos por el lector, y compara lo que ven los sistemas de monitorización con lo que realmente sienten los clientes (en el ejemplo del artículo, 254 ms frente a 410 ms de media).
El autor sostiene que las latencias de cola y los tiempos de recuperación largos importan más de lo que reconocen muchos equipos, y que prácticas como el timeout-and-retry pueden enmascarar latencias en servicios, pero no durante una caída. También critica las métricas truncadas (medias podadas), porque descartan información clave sobre la cola derecha que define la experiencia del usuario. La entrada cierra con una nota técnica sobre por qué eligió una distribución log-normal para el modelo y enlaces a análisis previos sobre latencia y Ley de Little.
