Un hilo de discusión en Hacker News aborda una duda recurrente entre usuarios de MacBook que quieren ejecutar modelos de lenguaje grandes (LLM) en local: cuánta memoria queda disponible realmente para la GPU y en qué se diferencia de una GPU dedicada con VRAM propia. La memoria en los chips Apple Silicon es unificada, por lo que el sistema operativo y las aplicaciones consumen una parte (en torno a 8 GB en máquinas de 64 GB), y el resto se reparte dinámicamente entre CPU y GPU. Esto permite cargar modelos de unos 45 GB en un MacBook Pro de 64 GB sin renunciar a multitarea, algo inviable en una tarjeta gráfica convencional de 24 GB como la Nvidia RTX 3090.
El artículo recoge experiencias concretas: un MacBook Pro M5 con 64 GB ejecuta con MLX modelos como Gemma 4 26B o Qwen 3.6 35B en cuantización de 4 bits, con velocidades de unos 1.500 tokens por segundo en la fase de prefill y alrededor de 45 t/s en la generación, en contextos de hasta 100.000 tokens, con una calidad de chat comparable a Claude para ciertos modelos. Sin embargo, los participantes subrayan que la inferencia local sigue siendo mucho más lenta que la nube y que los flujos agénticos completos no alcanzan el nivel de los modelos hospedados.
Como alternativas se mencionan workstations con varias GPU Nvidia 3090 de segunda mano (unos 1.000 dólares cada una, con 24 GB de VRAM y 350 W de consumo) o configuraciones experimentales con tarjetas externas. La opción más equilibrada, según los autores, es un MacBook Pro M1 Max de 16 pulgadas con 64 GB de RAM usada, que ronda los 1.100 a 1.500 euros en el mercado de segunda mano y permite cargar modelos de hasta 48 GB. El consenso es que cualquier MacBook con Apple Silicon es una puerta de entrada válida a la computación agéntica local, siempre que el usuario asuma tiempos de espera de minutos e incluso horas por respuesta.
