Un desarrollador ha presentado una nueva técnica de compresión de modelos de lenguaje grandes (LLM) llamada TQ4_1S, diseñada específicamente para dispositivos Apple con chips Metal. Esta técnica reduce el tamaño de los modelos en un 27-38%, dependiendo del modelo, sin necesidad de reentrenamiento ni modificación del modelo original. Los modelos Qwen y Llama mostraron resultados prometedores, con una reducción de tamaño significativa y un impacto mínimo en la calidad de la generación de texto (PPL, Perplexity). La técnica utiliza una combinación de rotación WHT y cuantización Lloyd-Max para comprimir los pesos del modelo. Aunque la etapa de cuantización es compatible con cualquier plataforma, los kernels de descompresión son exclusivos de Metal, lo que significa que los modelos comprimidos no funcionarán en CUDA o HIP hasta que se porten los backends correspondientes. Se están realizando pruebas adicionales para asegurar la compatibilidad con otros modelos y plataformas, y se espera que la técnica mejore el rendimiento de los LLM en dispositivos Apple.
