Ejecutar modelos de lenguaje en el propio ordenador ha dejado de ser una tarea marginal y se ha convertido en una alternativa práctica para tareas de desarrollo. Una ingeniera con un Mac M2 de 2022 (64 GB de RAM y 1 TB de almacenamiento) describe cómo ha pasado de depender de servicios en la nube a utilizar modelos locales con resultados competitivos.
La autora ha probado a lo largo de los últimos meses modelos como Mistral 7B, Gemma 3, GPT-OSS-20B de OpenAI, Qwen 3 MoE y Qwen 2.5 Coder, sobre diferentes configuraciones: llama.cpp con Open WebUI, llama-cpp-python, Ollama, llamafiles y LM Studio. Su criterio informal de calidad es si debe volver a verificar la respuesta contra un modelo en la nube; con GPT-OSS esa necesidad se redujo drásticamente.
Con la familia Gemma 4 de Google, en concreto gemma-4-26b-a4b servida desde LM Studio, ha logrado flujos de codificación agentic locales con alrededor del 75% de la precisión y velocidad de los modelos frontera. Los ha usado para refactorizar un notebook de Python en módulos, aplicar type hints PEP 585, generar pruebas unitarias, corregir borradores y arrancar el esqueleto de un sistema de recomendaciones de dos torres. La versión gemma-4-12b-qat, más reciente y compacta, mantiene un rendimiento destacado respecto a su tamaño.
El artículo detalla la pila técnica recomendada: LM Studio como servidor de inferencia local, Pi como harness agentic y Docker como entorno aislado con permisos limitados. Se incluyen los archivos docker-compose.yml y el script bash necesario para levantar el agente, junto con la configuración de models.json para que Pi se comunique con el endpoint local en host.docker.internal:1234.
