Un ingeniero heredó un servicio en producción construido por un ejecutivo no técnico con ayuda de un asistente de código basado en modelos de lenguaje. Al revisar la gráfica de consumo de la API de IA, descubrió que un solo día concentraba cerca de la mitad de la factura mensual y superaba el coste de mantener toda la flota de servidores durante un mes. La causa no fue un uso humano intensivo, sino un fallo técnico automatizado: un lote de consultas a varios modelos de lenguaje se ejecutó 21 veces seguidas para un mismo cliente.
El origen estuvo en dos problemas combinados. Primero, el despliegue se hizo en orden inverso: se envió a producción código que esperaba una nueva columna en la base de datos, pero la migración que la creaba no se había aplicado todavía. La escritura fallaba con un error 500 determinista. Segundo, la cola de tareas gestionada, diseñada para reintentar fallos transitorios, volvía a lanzar el trabajo cada vez. Como el lote no era idempotente y no saltaba el trabajo ya hecho, cada reintento repetía todas las llamadas a los modelos de lenguaje desde cero, generando un nuevo cargo completo.
El artículo extrae cuatro lecciones operativas: los fallos deterministas no se arreglan reintentándolos, los trabajos con efectos colaterales costosos deben ser idempotentes, el orden correcto de despliegue es primero el esquema y después el código, y los costes deben monitorizarse con alertas, no solo a posteriori. El autor subraya que las herramientas de generación por IA han reducido la barrera para construir productos, pero saber cómo pueden romperse y encarecerse sigue siendo tarea de quien mantiene el sistema.
