Cómo configurar un agente de codificación local en macOS

Fuentes: How to Setup a Local Coding Agent on macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de internet. El objetivo era lograr un sistema rápido, compatible con API OpenAI y capaz de procesar imágenes. La configuración final incluye llama.cpp compilado con aceleración Metal, el modelo Gemma 4 en formato GGUF (Q4_K_XL, ~16 GB), un modelo draft MTP en Q8 para decodificación especulativa y el proyector multimodal mmproj-BF16. Todo se probó en un Apple M1 Max con 64 GB de RAM unificada. Los benchmarks muestran que la decodificación MTP con 3 tokens draft acelera la generación un 24 % (de 58.2 a 72.2 tokens/segundo), manteniendo el procesamiento de prompts en ~298 tok/s. Se comparó con MLX: llama.cpp resultó más rápido (72.2 vs 45.8 tok/s de MLX). La adición del proyector multimodal no ralentiza la generación de texto. El artículo detalla la instalación paso a paso: instalar dependencias (cmake, git, tmux, Python 3.11), clonar y compilar llama.cpp con flags Metal, descargar los tres archivos del modelo desde Hugging Face (GGUF, proyector, draft) y lanzar el servidor local con el comando final que incluye los parámetros MTP y --mmproj. El endpoint compatible con OpenAI es http://127.0.0.1:8080/v1. Consideraciones importantes: el rendimiento depende del hardware; en M1 Max el valor óptimo de --spec-draft-n-max fue 3, pero puede variar. El espacio total requerido es de unos 17 GB. Esta configuración es especialmente útil para desarrolladores que trabajan offline, necesitan asistencia de codificación con capturas de pantalla o quieren evitar límites de APIs externas. Pi como agente terminal permite integrar el modelo local en flujos de trabajo de edición de código.