20 Jun 2026 · Original en inglés · Artículo

La paradoja de la inspección: por qué tus métricas mienten sobre la latencia y los tiempos de recuperación

Fuentes: The Inspection Paradox: Why Your Latency and Recovery Time Metrics Lie

Marc Brooker, ingeniero de AWS y autor del blog, explica por qué las métricas internas de un servicio web (latencia media y MTTR) suelen pintar un panorama mucho más optimista que el que perciben los usuarios. El artículo parte de dos escenas cotidianas: Alice se queja de que un servicio tarda alrededor de un segundo, aunque los registros indican una media de 100 ms por petición; Alex asegura que las caídas duran cerca de una hora, mientras que el equipo presume de un MTTR inferior a un minuto. Las dos partes tienen razón, porque miden el tiempo con unidades distintas: los ingenieros cuentan peticiones o incidentes, mientras que los usuarios cuentan segundos y minutos, lo que otorga un peso desproporcionado a los eventos largos.

Brooker enmarca el fenómeno en la llamada paradoja de la inspección: cuando un cliente toma una muestra aleatoria en el tiempo, es más probable que caiga justo en medio de una operación prolongada, de modo que su experiencia está dominada por la cola pesada de la distribución, no por la mediana. Para visualizarlo, el post incluye una simulación interactiva que ajusta una distribución log-normal a partir de la mediana y el percentil 99 introducidos por el lector, y compara lo que ven los sistemas de monitorización con lo que realmente sienten los clientes (en el ejemplo del artículo, 254 ms frente a 410 ms de media).

El autor sostiene que las latencias de cola y los tiempos de recuperación largos importan más de lo que reconocen muchos equipos, y que prácticas como el timeout-and-retry pueden enmascarar latencias en servicios, pero no durante una caída. También critica las métricas truncadas (medias podadas), porque descartan información clave sobre la cola derecha que define la experiencia del usuario. La entrada cierra con una nota técnica sobre por qué eligió una distribución log-normal para el modelo y enlaces a análisis previos sobre latencia y Ley de Little.

Etiquetas

inspection paradox latency mttr tail latency log-normal distribution service reliability monitoring sre

Entidades mencionadas

Marc's Blog creative_work

AWS organization

AWStats es una herramienta open source de informes de análisis web, apta para analizar datos de servicios de Internet como un servidor web, streaming, mail y FTP. AWstats analiza los archivos de log d

Ver en Wikipedia

Little's Law protocol_standard

Marc Brooker person

Mark Brooke-Cowden es un exjugador neozelandés de rugby y rugby League que se desempeñaba como ala. Actualmente ejerce su profesión de asesor financiero.

Ver en Wikipedia