Qwen 3.6 27B: el modelo local que cambia las reglas del juego

Fuentes: Qwen 3.6 27B is the sweet spot for local development

Qwen 3.6 27B se ha convertido en una de las opciones más atractivas para ejecutar modelos de lenguaje de gran tamaño en hardware propio. Se trata de un modelo denso de 27.000 millones de parámetros —acompañado por una variante MoE de 35B A3B más rápida pero menos precisa— que, según benchmarks independientes y pruebas manuales, ofrece un rendimiento comparable a modelos frontera propietarios en tareas de programación y razonamiento, siempre que se disponga de suficiente memoria.

El artículo explica paso a paso cómo desplegarlo en local con llama.cpp: desde la descarga de una cuantización Q8_0 con soporte para multi-token prediction (MTP) en Hugging Face, hasta el comando llama-server con sus parámetros clave (contexto de 64k tokens, flash attention, descarga completa a GPU, puerto fijo 8080). También muestra cómo integrarlo en OpenCode como proveedor compatible con la API de OpenAI, y propone alternativas como llama-cli para uso desde terminal.

En pruebas de rendimiento sobre un MacBook Max M5 de 128 GB, el modelo alcanzó unos 30 tokens por segundo, dentro del rango típico de APIs frontera. En una RTX 5090 con cuantización Q6_K se llegaron a registrar 50 tokens/s con 123k de contexto usando 28 de 32 GB de VRAM. El texto incluye comparativas con DeepSeek V4 Flash y Gemma 4 31B, y reflexiona sobre las implicaciones de poder ejecutar modelos ajustables, privados y desconectados en un momento en que varios modelos frontera propietarios están siendo retirados o subsidiados agresivamente.