Un ingeniero logra ejecutar el modelo Gemma 4 con verificación especulativa en un servidor reciclado con un Intel Xeon E5-2620 v4 de ocho núcleos, 128 GB de RAM DDR3 y sin GPU. Explica paso a paso las optimizaciones necesarias para superar la 'barrera de la memoria' en inferencia de LLM. La clave está en el uso de decodificación especulativa (speculative decoding) con un drafter pequeño que cabe en la caché L3, junto con parámetros como --cpu-moe, --merge-up-gate-experts y --run-time-repack. El artículo detalla cómo cada ajuste mitiga el cuello de botella del ancho de banda de memoria, permitiendo que hardware antiguo procese modelos modernos de 26B parámetros. También advierte sobre el bloqueo de memoria con --mlock para evitar el intercambio a disco.
Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU
Fuentes:
A 10 year old Xeon is all you need
