American Express detalla en su blog técnico cómo aplica una arquitectura basada en celdas en su ecosistema central de pagos, una plataforma global que procesa transacciones de tarjetas a diario y exige alta disponibilidad, baja latencia y rendimiento predecible. La resiliencia, explican, forma parte del diseño desde el inicio: los fallos localizados se contienen dentro de límites definidos y la recuperación es rápida y predecible.
El concepto de celda agrupa microservicios, bases de datos y demás componentes en instancias independientes capaces de funcionar sin depender de otras celdas. Cada celda es una unidad desplegable por sí sola, con su propio conjunto de servicios y datos, y constituye un dominio de fallo único: un problema en una celda no se propaga al resto. Esto permite reducir el radio de explosión de las incidencias, aunque a cambio añade complejidad de gestión y requiere un diseño cuidadoso para garantizar la independencia real de las celdas y la localización adecuada de los datos.
En el sistema de American Express, las celdas nunca abarcan varias regiones y todos los elementos necesarios para procesar una transacción —DNS, bases de datos, microservicios y servicios auxiliares— permanecen locales. Para los datos estáticos y semiestáticos, como tasas de cambio o códigos de categoría de comercio, la compañía los replica previamente en cada celda, de modo que la ruta crítica de procesamiento no necesite lecturas síncronas a un sistema central. Para los datos dinámicos, que cambian con cada transacción, recurren a enrutamiento determinista: el Global Transaction Router dirige cada operación a la celda donde ya reside la información autoritativa, mientras la replicación asíncrona mantiene sincronizadas las celdas de respaldo fuera del camino crítico. De este modo se consigue aislamiento, baja latencia y escalabilidad sin ampliar el dominio de fallo.
