Bluesky, la red social descentralizada, sufrió una interrupción de servicio que afectó a aproximadamente la mitad de sus usuarios durante ocho horas el pasado lunes. La causa raíz se identificó como un agotamiento de puertos memcached debido a una nueva herramienta interna que enviaba grandes lotes de solicitudes a la vez, sin la limitación de concurrencia adecuada. Esta situación provocó una cascada de errores, incluyendo problemas con el registro, un aumento en el uso de recursos del sistema operativo y fallos de memoria (OOM), lo que perpetuó el ciclo de interrupción. El equipo de Bluesky implementó una solución temporal, utilizando un dialer personalizado para evitar el agotamiento de puertos, antes de corregir el problema subyacente. El incidente reveló deficiencias en la observabilidad de la plataforma, destacando la necesidad de mejorar las métricas por cliente y reducir la dependencia excesiva del registro. Bluesky está buscando personal para mejorar sus sistemas.
