19 Jun 2026 · Original en inglés · Resumen IA

GLM-5.2: el modelo open-weight más potente hasta la fecha y la realidad de ejecutarlo en local

Fuentes: GLM-5.2: The Most Powerful Open-Weight Model Yet — and the Brutal Reality of Running It Locally

El laboratorio chino Z.ai ha publicado GLM-5.2, un modelo de IA con licencia MIT que lidera el Artificial Analysis Intelligence Index v4.1 con 51 puntos, por delante de MiniMax-M3 y DeepSeek V4 Pro (ambos con 44) y de Kimi K2.6 (43). Se trata de una arquitectura Mixture-of-Experts con 753.000 millones de parámetros totales y unos 40.000 millones activos por token, pensada para tareas de codificación agentic con una ventana de contexto de un millón de tokens, el doble que su predecesor. Los pesos completos en BF16 ocupan 1,51 TB y están disponibles en Hugging Face desde el 16 de junio de 2026.

La novedad técnica principal es IndexShare, un mecanismo que reutiliza un indexador ligero entre cuatro capas de atención dispersa y reduce los FLOPs por token hasta 2,9 veces al trabajar con el contexto completo. Sin embargo, los benchmarks head-to-head matizan el liderazgo: en Code Arena WebDev queda en segunda posición, por detrás de Claude Fable 5. Z.ai asegura que supera a GPT-5.5 en varias pruebas de codificación de largo recorrido a una fracción de su coste, aunque se trata de una afirmación del fabricante.

Ejecutarlo en local exige hardware fuera del alcance del usuario doméstico. Incluso en cuantización Q4_K_M se necesitan alrededor de 476 GB de memoria, lo que limita las opciones a servidores multi-GPU o a un Mac Studio M3 Ultra de 256 GB o más, capaz de mover el modelo cuantizado a 2 bits a unos 3-9 tokens por segundo. Para la mayoría, la alternativa realista es alquilar GPU en la nube o recurrir a la API, con un coste aproximado de 4,40 dólares por millón de tokens de salida y un consumo medio de 43.000 tokens por tarea de programación.