07 Jun 2026 · Original en inglés · Artículo

Speculative KV coding: compresión sin pérdidas de la caché KV de LLM

Fuentes: Speculative KV coding: losslessly compressing KV cache by up to ~4× using a predictor model

Imagen generada por IA con el prompt: Abstract editorial visualization of compressed data streams: interconnected glowing nodes representing neural network layers with luminous blue and purple data flows converging into a dense core, dark background, no text — Imagen generada con IA

Speculative KV coding es un nuevo método para reducir el tamaño de la caché de clave-valor (KV cache) de los modelos de lenguaje grandes (LLM) hasta aproximadamente cuatro veces, sin pérdida de información, partiendo de una caché ya comprimida con pérdida en fp8.

El contexto de los LLM crece de forma continua y la caché KV —que almacena estados intermedios de atención para no recalcular el prefill— se ha convertido en el principal cuello de botella de memoria en flujos agentivos de contexto largo. La compresión con pérdida, como TurboQuant, baja el número de bits por escalar a costa de una degradación de calidad que solo se detecta tras ejecutar baterías de evaluación. La compresión sin pérdidas evita ese problema al reconstruir la caché de forma exacta.

El método se apoya en una observación clave: la caché KV no es una muestra aleatoria, sino el resultado determinista de un forward pass con unos pesos y un prompt concretos. Su entropía teórica es cero, de modo que cada bit que gasta el codificador procede del desfase —la divergencia KL— entre un modelo predictor y la verdad.

Speculative KV coding toma un modelo predictor más barato y rápido, ejecuta su forward pass sobre el mismo prompt en codificador y decodificador, y obtiene una predicción por escalar con su error típico. Un codificador aritmético codifica la caché verdadera al bitrate que marque lo bien que el predictor se ajusta al objetivo, por analogía con la decodificación especulativa. Un predictor ruidoso obliga a pagar cerca de 16 bits por escalar; un predictor exacto o el propio modelo objetivo no envía nada. Los predictores reales se mueven entre ambos extremos, y el reto de diseño es empujar la entropía condicional a la baja de forma barata.

El predictor más natural es una versión optimizada del mismo modelo, por ejemplo una variante cuantizada (FP8, INT4 o MXFP4), que ya se distribuye junto a los modelos abiertos. La perturbación que introduce el redondeo de pesos se traduce en un residuo pequeño y estructurado, justo el régimen en el que un modelo gaussiano centrado en la predicción codifica barato. Sobre el baseline fp8, el método añade cerca de 3× adicionales, para un beneficio bruto cercano a 4×. El esquema es estrictamente sin pérdidas porque el codificador aritmético lo es y porque ambos lados reconstruyen la predicción de forma determinista a partir del mismo prompt y el mismo predictor.

Etiquetas

kv cache llm inference lossless compression speculative decoding arithmetic coding transformer model compression entropy coding

Entidades mencionadas

vLLM software

TurboQuant software

rANS software

Kullback-Leibler divergence protocol_standard

Harmonia Macrocosmica creative_work

Leviathan et al., 2022 (speculative decoding) creative_work

Speculative KV coding software

tANS software

Shannon's source coding theorem protocol_standard

Johannes van Loon person

Johannes Cornelis van Hoolwerff fue un deportista neerlandés que compitió en vela en la clase 8 Metre. Participó en los Juegos Olímpicos de Ámsterdam 1928, obteniendo una medalla de plata en la clase

Ver en Wikipedia

Enlaces

TurboQuant arxiv.org

exploration vllm.ai

here arxiv.org

speculative decoding arxiv.org

Shannon's source coding theorem en.wikipedia.org

KL en.wikipedia.org

Qwen3 huggingface.co

vLLM vllm.ai

Recent work arxiv.org