Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU

Fuentes: A 10 year old Xeon is all you need
Imagen generada por IA con el prompt: A vintage server motherboard with a large heat sink, surrounded by digital data streams and a glowing AI brain icon in the center, cyberpunk style, dim lighting
Imagen generada con IA

Un ingeniero logra ejecutar el modelo Gemma 4 con verificación especulativa en un servidor reciclado con un Intel Xeon E5-2620 v4 de ocho núcleos, 128 GB de RAM DDR3 y sin GPU. Explica paso a paso las optimizaciones necesarias para superar la 'barrera de la memoria' en inferencia de LLM. La clave está en el uso de decodificación especulativa (speculative decoding) con un drafter pequeño que cabe en la caché L3, junto con parámetros como --cpu-moe, --merge-up-gate-experts y --run-time-repack. El artículo detalla cómo cada ajuste mitiga el cuello de botella del ancho de banda de memoria, permitiendo que hardware antiguo procese modelos modernos de 26B parámetros. También advierte sobre el bloqueo de memoria con --mlock para evitar el intercambio a disco.