Speculative KV coding: compresión sin pérdidas de la caché KV de LLM

Fuentes: Speculative KV coding: losslessly compressing KV cache by up to ~4× using a predictor model
Imagen generada por IA con el prompt: Abstract editorial visualization of compressed data streams: interconnected glowing nodes representing neural network layers with luminous blue and purple data flows converging into a dense core, dark background, no text
Imagen generada con IA

Speculative KV coding es un nuevo método para reducir el tamaño de la caché de clave-valor (KV cache) de los modelos de lenguaje grandes (LLM) hasta aproximadamente cuatro veces, sin pérdida de información, partiendo de una caché ya comprimida con pérdida en fp8.

El contexto de los LLM crece de forma continua y la caché KV —que almacena estados intermedios de atención para no recalcular el prefill— se ha convertido en el principal cuello de botella de memoria en flujos agentivos de contexto largo. La compresión con pérdida, como TurboQuant, baja el número de bits por escalar a costa de una degradación de calidad que solo se detecta tras ejecutar baterías de evaluación. La compresión sin pérdidas evita ese problema al reconstruir la caché de forma exacta.

El método se apoya en una observación clave: la caché KV no es una muestra aleatoria, sino el resultado determinista de un forward pass con unos pesos y un prompt concretos. Su entropía teórica es cero, de modo que cada bit que gasta el codificador procede del desfase —la divergencia KL— entre un modelo predictor y la verdad.

Speculative KV coding toma un modelo predictor más barato y rápido, ejecuta su forward pass sobre el mismo prompt en codificador y decodificador, y obtiene una predicción por escalar con su error típico. Un codificador aritmético codifica la caché verdadera al bitrate que marque lo bien que el predictor se ajusta al objetivo, por analogía con la decodificación especulativa. Un predictor ruidoso obliga a pagar cerca de 16 bits por escalar; un predictor exacto o el propio modelo objetivo no envía nada. Los predictores reales se mueven entre ambos extremos, y el reto de diseño es empujar la entropía condicional a la baja de forma barata.

El predictor más natural es una versión optimizada del mismo modelo, por ejemplo una variante cuantizada (FP8, INT4 o MXFP4), que ya se distribuye junto a los modelos abiertos. La perturbación que introduce el redondeo de pesos se traduce en un residuo pequeño y estructurado, justo el régimen en el que un modelo gaussiano centrado en la predicción codifica barato. Sobre el baseline fp8, el método añade cerca de 3× adicionales, para un beneficio bruto cercano a 4×. El esquema es estrictamente sin pérdidas porque el codificador aritmético lo es y porque ambos lados reconstruyen la predicción de forma determinista a partir del mismo prompt y el mismo predictor.