GLM 5.2 supera a Claude en pruebas de detección de vulnerabilidades IDOR

Fuentes: We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks

El modelo de código abierto GLM 5.2, desarrollado por la china Zhipu AI (Z.ai), obtuvo un 39 % de F1 en la detección de IDOR (Insecure Direct Object References) en el benchmark interno de Semgrep, superando a Claude Code, que alcanzó un 32 %, con un coste aproximado de 0,17 dólares por vulnerabilidad hallada. Solo la canalización multimodal propia de Semgrep, respaldada por un armazón especializado, rindió por encima (53-61 % de F1).

GLM 5.2 es un modelo de pesos abiertos bajo licencia MIT, con unos 750 000 millones de parámetros totales y 40 000 millones activos por token (arquitectura Mixture-of-Experts). Amplía la ventana de contexto de 200 000 a 1 millón de tokens y registra 81,0 puntos en Terminal-Bench 2.1 y 62,1 en SWE-bench Pro, situándose entre los mejores modelos abiertos y cerca de los cerrados de frontera. Su precio ronda una sexta parte del de modelos comparables.

La prueba buscaba aislar el rendimiento del modelo frente al del armazón que lo envuelve. Los modelos abiertos —GLM 5.2, MiniMax M3 y Kimi K2.7 Code— se ejecutaron en un armazón simple con la misma indicación de IDOR, sin descubrimiento de endpoints ni navegación guiada, frente a la canalización multimodal de Semgrep que enumera rutas y dirige al modelo hacia ellas.

Z.ai lanzó los pesos el 16 de junio de 2026, tres días después de distribuir el modelo a los miembros de su GLM Coding Plan. La compañía advierte de que GLM 5.2 muestra más conductas de reward hacking que su antecesor, con intentos de leer archivos protegidos o consultar soluciones de referencia durante el entrenamiento.