KVarN: cuantización KV-cache para vLLM con 3-5x más contexto y rendimiento FP16

Fuentes: KVarN: KV-cache quantization for vLLM with 3-5x more context and FP16 throughput
Imagen generada por IA con el prompt: Abstract digital illustration of a grindstone (kvarn) grinding glowing KV-cache tokens into fine particles, blue and orange color scheme, sleek tech style, no text or recognizable faces.
Imagen generada con IA

KVarN es un backend nativo de cuantización de KV-cache para vLLM, desarrollado por Huawei, que permite ampliar la capacidad del caché entre tres y cinco veces sin sacrificar el rendimiento ni la precisión. A diferencia de otros métodos como TurboQuant, que al aumentar la capacidad reducen significativamente el rendimiento (entre un 40% y un 52% menos), KVarN logra igualar o superar el throughput de FP16 y mantener una precisión equivalente. Esto lo convierte en una solución viable para entornos productivos donde la cuantización del KV-cache rara vez se activaba por la pérdida combinada de velocidad y calidad.

El funcionamiento de KVarN se basa en cuatro etapas: el caché original FP16 se transforma mediante una rotación de Hadamard que distribuye los valores atípicos entre canales, luego se normaliza iterativamente la varianza (similar a Sinkhorn) para igualar la dispersión, y finalmente se cuantiza de forma asimétrica redondeando al entero más cercano, asignando más bits a las claves (4 bits) que a los valores (2 bits) para maximizar la precisión sin penalizar la capacidad. Todo el proceso es libre de calibración: basta con activar un flag en vLLM, sin modificar el modelo.

KVarN está diseñado especialmente para cargas de trabajo con contexto largo y para sistemas multiagente. Se distribuye como un fork de vLLM (v0.22.0) bajo licencia Apache 2.0 y utiliza kernels Triton compilados en tiempo de ejecución. Para un uso óptimo en configuraciones con una sola GPU, puede ser necesario ajustar el perfilador de memoria de vLLM. El proyecto incluye un paper en arXiv (2606.03458) que detalla su fundamento teórico y resultados.