Alibaba presentó el modelo Qwen3.7-Max, que demostró una capacidad de autonomía excepcional al optimizar un kernel de código durante 35 horas en hardware desconocido sin documentación previa. El modelo se enfrentó a procesadores T-Head ZW-M890 PPUs desconocidos para mejorar una operación de atención en el framework SGLang, logrando una aceleración de 10 veces respecto a la implementación original. Durante este proceso, Qwen3.7-Max realizó más de 1.158 llamadas a herramientas, diagnosticó fallos de compilación y rediseñó la arquitectura de forma autónoma hasta superar el umbral de las 30 horas de mejora continua. Este rendimiento superó a competidores como GLM 5.1 y DeepSeek V4 Pro en esta tarea específica. Además, los resultados en benchmarks estándar como GPQA Diamond y HMMT demuestran que el modelo no solo es eficiente en entornos desconocidos, sino que también posee un alto nivel de razonamiento general. La metodología de entrenamiento de Alibaba, basada en 'escalado de entorno', permite al modelo generalizar mejor que otros modelos que se especializan en tareas específicas.
Qwen3.7-Max optimiza código en hardware desconocido logrando 10x aceleración
