Arquitectura basada en celdas para sistemas de pago resilientes

Fuentes: Cell-Based Architecture for Resilient Payment Systems

American Express detalla en su blog técnico cómo aplica una arquitectura basada en celdas en su ecosistema central de pagos, una plataforma global que procesa transacciones de tarjetas a diario y exige alta disponibilidad, baja latencia y rendimiento predecible. La resiliencia, explican, forma parte del diseño desde el inicio: los fallos localizados se contienen dentro de límites definidos y la recuperación es rápida y predecible.

El concepto de celda agrupa microservicios, bases de datos y demás componentes en instancias independientes capaces de funcionar sin depender de otras celdas. Cada celda es una unidad desplegable por sí sola, con su propio conjunto de servicios y datos, y constituye un dominio de fallo único: un problema en una celda no se propaga al resto. Esto permite reducir el radio de explosión de las incidencias, aunque a cambio añade complejidad de gestión y requiere un diseño cuidadoso para garantizar la independencia real de las celdas y la localización adecuada de los datos.

En el sistema de American Express, las celdas nunca abarcan varias regiones y todos los elementos necesarios para procesar una transacción —DNS, bases de datos, microservicios y servicios auxiliares— permanecen locales. Para los datos estáticos y semiestáticos, como tasas de cambio o códigos de categoría de comercio, la compañía los replica previamente en cada celda, de modo que la ruta crítica de procesamiento no necesite lecturas síncronas a un sistema central. Para los datos dinámicos, que cambian con cada transacción, recurren a enrutamiento determinista: el Global Transaction Router dirige cada operación a la celda donde ya reside la información autoritativa, mientras la replicación asíncrona mantiene sincronizadas las celdas de respaldo fuera del camino crítico. De este modo se consigue aislamiento, baja latencia y escalabilidad sin ampliar el dominio de fallo.