IA local en Macs: Qwen 3.5 logra 40 tokens por segundo con chip M4

Fuentes: Running ai models locally on macs becomes more accessible
IA local en Macs: Qwen 3.5 logra 40 tokens por segundo con chip M4
Imagen generada con IA

Investigadores y desarrolladores ahora pueden ejecutar modelos de inteligencia artificial localmente en Macs con chip M4 y 24 GB de memoria, reduciendo la dependencia de las grandes tecnológicas. La autora Johanna Larsson probó varias herramientas como Ollama, Llama.cpp y LM Studio, encontrando que Qwen 3.5-9B con cuantización Q4 es el modelo más efectivo, alcanzando aproximadamente 40 tokens por segundo con una ventana de contexto de 128K. La configuración permite tareas básicas de programación, investigación y planificación sin necesidad de conexión a internet. Aunque no iguala el rendimiento de modelos de última generación, resulta útil para flujos de trabajo interactivos donde el usuario guía al modelo paso a paso. La configuración incluye activar el modo de pensamiento y ajustar parámetros como temperatura 0,6, top_p 0,95 y top_k 20 para tareas de codificación precisa. Esta opción ofrece una alternativa más privada y autónoma frente a los servicios de IA centralizados.