12 Jun 2026 · Original en inglés · Artículo

Comprar cachés KV para eliminar el prefill redundante en agentes de IA

Fuentes: Can I Buy Your KV Cache? A Proposal to Eliminate Redundant Prefill in AI Agents

Un nuevo artículo académico propone una solución radical para uno de los problemas más ineficientes de la inteligencia artificial actual: el prefill redundante. Cada vez que un agente de IA procesa un documento, ejecuta desde cero la fase de prefill, la etapa computacionalmente más costosa de un modelo grande, para construir una caché clave-valor (KV) idéntica a la que otro agente acaba de generar. El resultado es que el mismo texto se procesa millones de veces sin necesidad. La propuesta, presentada en un preprint de arXiv, es sorprendentemente simple: calcular la caché KV una sola vez y permitir que el editor del documento la venda a cualquier agente que quiera usarla. Los autores demuestran que cargar una caché KV precomputada y continuar desde ahí produce resultados exactamente iguales (token a token, 24/24) que realizar el prefill completo, sin pérdida de precisión. Sobre el modelo Qwen3-4B, reutilizar la caché es entre 9 y 50 veces más barato en coste computacional que ejecutar el prefill, y la ventaja crece con la longitud del documento porque el prefill escala con L². El verdadero desafío es dónde alojar la caché. Enviarla a cada agente es inviable porque la caché KV es casi incompresible y el coste de transferencia supera el ahorro computacional. La solución es alojarla del lado del proveedor, exactamente como funciona el prompt-caching en producción, eliminando por completo los costes de salida. El ahorro potencial es enorme: servir un documento caliente de 3774 tokens a 80 millones de agentes costaría unos 1,5 millones de dólares en prefill repetido, pero solo 0,03 millones si se reutiliza la caché; es decir, 49,7 veces menos. Las tarifas actuales de lectura de caché (0,1×) permiten ofrecer un descuento del 10× a los usuarios mientras siguen dentro de ese margen, y la diferencia hasta el ahorro físico de ~50× queda como margen para el proveedor: millones de dólares por documento popular. El trabajo esboza una red de entrega de prefill nativa para agentes, y deja como problemas abiertos la compresión lossless de KV y una capa de pagos entre partes.

Temas

Etiquetas

kv cache prefill ai agents qwen3-4b compute savings prompt caching

Entidades mencionadas

Qwen3-4B software

Enlaces

What is the Explorer? info.arxiv.org

What is alphaXiv? alphaxiv.org

What is Huggingface? huggingface.co

Learn more about arXivLabs info.arxiv.org