22 Jun 2026 · Original en inglés · Artículo

Cómo ejecutar GLM-5.2 en local con los GGUF dinámicos de Unsloth

Fuentes: GLM-5.2 - How to Run Locally | Unsloth Documentation

GLM-5.2, el nuevo modelo abierto de Z.ai, ya puede ejecutarse en hardware local gracias a las cuantizaciones GGUF dinámicas de Unsloth, disponibles desde el día de lanzamiento. Se trata de un modelo de 744.000 millones de parámetros con 40.000 millones activos y una ventana de contexto de un millón de tokens, situado al nivel de Claude 4.8 Opus, GPT-5.5 y Gemini 3.1 Pro en pruebas como Artificial Analysis para tareas de programación, razonamiento y uso agéntico de larga duración.

El modelo completo ocupa 1,51 TB en disco, pero las versiones cuantizadas de Unsloth lo reducen de forma significativa. La cuantización dinámica UD-IQ2_M de 2 bits deja el archivo en 239 GB, una reducción del 84 %, suficiente para un Mac con 256 GB de memoria unificada o para un equipo con una GPU de 24 GB y 256 GB de RAM mediante descarga MoE a memoria del sistema. La versión UD-IQ1_S de 1 bit ocupa 217 GB, mientras que la de 8 bits requiere 810 GB de RAM.

Para sacar partido al modelo, GLM-5.2 incorpora tres modos de pensamiento (sin pensamiento, Pensamiento Alto y Pensamiento Máximo), recomendándose el modo Máximo para las tareas más complejas. Unsloth Studio, la interfaz web de código abierto del proyecto, permite alternar entre estos modos y descargar el modelo directamente desde su chat. También es posible ejecutarlo en llama.cpp, donde se ha añadido la opción de desactivar el pensamiento mediante parámetros de plantilla de chat.

En el análisis de cuantización, Unsloth aplicó la divergencia KL para medir la pérdida de precisión: los cuantizados dinámicos de 4 y 5 bits (UD-Q4_K_XL y UD-Q5_K_XL) son prácticamente lossless, y el de 1 bit alcanza un 76,2 % de exactitud con un tamaño un 86 % menor. Para contextos largos, la cuantización del KV Cache en q4_0 o q4_1 permite multiplicar por 3,2 o 3,5 la longitud de contexto manejable. Unsloth también ofrece acceso seguro mediante túnel HTTPS a través de Cloudflare.

Temas

desarrollo seguridad

Etiquetas

glm-5.2 z.ai unsloth llama.cpp gguf local ai model quantization open source unsloth studio moe