Z.ai ha lanzado GLM-5, un nuevo modelo de razonamiento disponible para su ejecución local. Este modelo supera a su predecesor, GLM-4.7, en tareas de codificación, agentes y chat, y está diseñado para el razonamiento con un contexto extenso, mostrando mejoras significativas en benchmarks como Humanity's Last Exam, BrowseComp y Terminal-Bench-2.0. El modelo completo cuenta con 744 mil millones de parámetros (40 mil millones activos) y una ventana de contexto de 200.000 tokens, requiriendo 1.51 TB de espacio en disco en su versión completa. Z.ai ofrece versiones cuantizadas que reducen considerablemente el tamaño, como la UD-Q2_K_XL (281GB) y la 1-bit (174GB). La ejecución local requiere herramientas como llama.cpp y ajustes específicos para optimizar el rendimiento, incluyendo el uso de opciones como --fit y la gestión de la descarga de capas MoE a la CPU o RAM para adaptarse a las capacidades del hardware del usuario. Z.ai también proporciona guías para el despliegue en producción utilizando llama-server y la compatibilidad con la API de OpenAI.
