12 Jun 2026 · Original en inglés · Artículo

Cómo configurar un agente de codificación local en macOS

Fuentes: How to Setup a Local Coding Agent on macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de internet. El objetivo era lograr un sistema rápido, compatible con API OpenAI y capaz de procesar imágenes. La configuración final incluye llama.cpp compilado con aceleración Metal, el modelo Gemma 4 en formato GGUF (Q4_K_XL, ~16 GB), un modelo draft MTP en Q8 para decodificación especulativa y el proyector multimodal mmproj-BF16. Todo se probó en un Apple M1 Max con 64 GB de RAM unificada. Los benchmarks muestran que la decodificación MTP con 3 tokens draft acelera la generación un 24 % (de 58.2 a 72.2 tokens/segundo), manteniendo el procesamiento de prompts en ~298 tok/s. Se comparó con MLX: llama.cpp resultó más rápido (72.2 vs 45.8 tok/s de MLX). La adición del proyector multimodal no ralentiza la generación de texto. El artículo detalla la instalación paso a paso: instalar dependencias (cmake, git, tmux, Python 3.11), clonar y compilar llama.cpp con flags Metal, descargar los tres archivos del modelo desde Hugging Face (GGUF, proyector, draft) y lanzar el servidor local con el comando final que incluye los parámetros MTP y --mmproj. El endpoint compatible con OpenAI es http://127.0.0.1:8080/v1. Consideraciones importantes: el rendimiento depende del hardware; en M1 Max el valor óptimo de --spec-draft-n-max fue 3, pero puede variar. El espacio total requerido es de unos 17 GB. Esta configuración es especialmente útil para desarrolladores que trabajan offline, necesitan asistencia de codificación con capturas de pantalla o quieren evitar límites de APIs externas. Pi como agente terminal permite integrar el modelo local en flujos de trabajo de edición de código.

Etiquetas

llama.cpp gemma 4 speculative decoding multimodal ai local coding agent macos apple m1 max pi unsloth

Entidades mencionadas

Pi software

MLX software

Gemma 4 software

Hugging Face organization

Apple M1 Max hardware

Unsloth person

Geoffrey Gilyard Unsworth, 26 de mayo de 1914; París, Francia, 28 de octubre de 1978) fue un director de fotografía británico que trabajó en casi noventa largometrajes durante una carrera que terminó

Ver en Wikipedia

llama.cpp software

Se llama copla es un concurso musical dedicado a la interpretación de copla emitido en Andalucía (España) por Canal Sur Televisión, y en el resto de España y el extranjero por otras plataformas a trav

Ver en Wikipedia

Enlaces

llama.cpp github.com

Pi github.com

models/unsloth-gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf huggingface.co

MTP draft model available huggingface.co

How to Run MTP Models unsloth.ai

unsloth/gemma-4-26B-A4B-it-GGUF huggingface.co