La forma en que los modelos de lenguaje grandes (LLM) como ChatGPT gestionan la memoria de las conversaciones, conocida como 'KV cache', tiene un costo físico y económico significativo. Cada interacción, incluso una pregunta sencilla, se traduce en datos almacenados en la memoria de la GPU, con GPT-2 requiriendo 300 KiB por token. Las arquitecturas más recientes, como Llama 3 y DeepSeek V3, han optimizado este proceso mediante técnicas como la atención agrupada y la compresión, reduciendo el costo por token. Sin embargo, esta memoria es volátil; las conversaciones antiguas a menudo se eliminan de la caché, lo que provoca retrasos cuando se reanuda una conversación. La eficiencia de la gestión de la caché impacta directamente en los precios de las APIs de IA, con descuentos significativos para las conversaciones en caché. La evolución de la KV cache refleja un cambio en la filosofía de diseño de los LLMs, desde el almacenamiento total de información hasta la priorización de la atención selectiva y la filtración de datos, como se ve en modelos alternativos como Mamba. La degradación de la calidad en conversaciones largas, conocida como 'context rot', es también una consecuencia de las limitaciones de la memoria y la atención.
