La cuantización entera se ha convertido en una técnica clave para ejecutar modelos de lenguaje grandes en hardware de consumo: lo que hace apenas unos años requería GPU de varios gigabytes para un modelo de 7.000 millones de parámetros en INT8, hoy permite cargar un modelo de 70.000 millones en 4 bits en una sola GPU. Esta guía desgrana los fundamentos de la cuantización de punto fijo y explica por qué importa en el despliegue de redes neuronales modernas.
El artículo parte de la motivación práctica: reducir la memoria necesaria para almacenar pesos y activaciones. Como regla general, un modelo de N mil millones de parámetros ocupa alrededor de 2·N GB en precisión de 16 bits; pasar a 8 bits recorta el footprint a la mitad y a 4 bits lo divide por cuatro. Además, la aritmética entera consume mucha menos energía que la de coma flotante: según el trabajo de Mark Horowitz (Stanford, 2014) sobre nodos CMOS de 45 nm, una suma INT8 gasta 30 veces menos energía que una suma FP32, y una multiplicación INT8, 18 veces menos. La ganancia real depende del cuello de botella: en cargas limitadas por cómputo (prefill de LLMs, CNN) la cuantización acelera el throughput, mientras que en cargas limitadas por ancho de banda de memoria (decoding) reduce los datos a mover.
El texto introduce después la unidad Multiply–Accumulate (MAC), bloque básico de los aceleradores neuronales para multiplicaciones matriz–vector y convoluciones, con sus elementos de proceso y acumuladores. A partir de ahí presenta la fórmula de cuantización, basada en una escala s y un punto cero z que mapean valores reales a una rejilla entera discreta de 2^b niveles, junto con la operación de clamp que limita los valores al rango representable. Se distingue entre cuantización min–max (rango sin signo) y abs-max (rango con signo), y se explican las dos fuentes de error: el error de redondeo, que aparece al aproximar cada valor al entero más cercano, y el error de clipping, que surge cuando un valor queda fuera del rango y se satura en el mínimo o máximo. La guía advierte de que reducir la escala s disminuye el error de redondeo pero amplía el rango y, por tanto, aumenta el de clipping, de modo que elegir los parámetros es siempre un equilibrio entre ambos.
