Modular ha anunciado que, tras varios meses de trabajo, los modelos de MAX ya pueden ejecutarse en GPUs Apple silicon desde la versión 26.4. En las nightly builds actuales, las GPUs M1, M2, M3, M4 y M5 son compatibles, y en ellas corren modelos de texto (LLMs), de visión y de difusión de imagen. El rendimiento es mejor en los sistemas M5, ya que estos SoCs incorporan operaciones dedicadas de multiplicación de matrices a través de los nuevos Neural Accelerators, para los que el equipo ha desarrollado kernels específicos.
Los desarrolladores pueden probar un LLM directamente en un Mac con un comando como max generate --model-path=Qwen/Qwen3.5-0.8B o levantar un endpoint de servicio con max serve, ajustando los flags --device-memory-utilization y --max-batch-size para limitar la memoria, algo necesario porque Apple silicon usa memoria compartida entre CPU y GPU. Con al menos 15 GB de RAM libre también es posible ejecutar en local el modelo de generación de imágenes FLUX.2 [klein] de 4.000 millones de parámetros, tanto de forma offline como sirviendo un endpoint compatible con Open Responses. Modular advierte de que el soporte puede presentar regresiones temporales en las nightly builds y de que aún quedan optimizaciones pendientes, especialmente en sistemas pre-M5.
