01 Jun 2026 · Original en inglés · Artículo

Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU

Fuentes: A 10 year old Xeon is all you need, point.free

Imagen generada por IA con el prompt: A vintage server motherboard with a large heat sink, surrounded by digital data streams and a glowing AI brain icon in the center, cyberpunk style, dim lighting — Imagen generada con IA

Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU: la hazaña técnica que desafía el 'memory wall'

Un experimento publicado en el blog técnico point.free demuestra que es posible ejecutar un modelo de inteligencia artificial de última generación, concretamente Gemma 4 en su versión 26B con arquitectura Mixture of Experts (MoE), en un servidor reciclado de hace una década que carece por completo de unidad de procesamiento gráfico (GPU). La proeza, documentada con detalle técnico, ilustra hasta qué punto la optimización por software puede compensar las limitaciones del hardware más modesto.

El hardware empleado constituye una verdadera reliquia para los estándares actuales: un único procesador Intel Xeon E5-2620 v4 lanzado en 2016, con 8 núcleos físicos y 16 hilos, 20 MiB de caché L3 y 128 GB de memoria RAM DDR3, una tecnología entre cinco y seis veces más lenta que la memoria de los portátiles modernos. El sistema no dispone de GPU ni de gráficos integrados.

Según explica el autor, el cuello de botella en la inferencia de modelos de lenguaje no es la capacidad de cómputo del procesador, sino el ancho de banda de memoria, fenómeno conocido como memory wall. Cada token generado exige transportar gigabytes de pesos desde la RAM hasta la caché del procesador, dejando los núcleos a la espera de que los datos lleguen por el bus de memoria. Esta limitación afecta tanto al veterano Xeon como a las potentes H100 de NVIDIA, aunque con consecuencias radicalmente distintas.

La clave del experimento reside en el uso de ik_llama.cpp, una bifurcación de llama.cpp que expone optimizaciones avanzadas, combinadas con varias técnicas complementarias. La primera es la decodificación especulativa, que empareja el modelo verificador de 26.000 millones de parámetros con un modelo borrador mucho más pequeño, capaz de generar hasta tres tokens por adelantado que el verificador valida en bloque. Esta técnica resulta especialmente eficaz en CPU, donde el cómputo adicional del borrador es barato comparado con el coste de transmitir los pesos del verificador.

La segunda técnica aprovecha la arquitectura MoE de Gemma 4, que cuenta con 128 expertos de los cuales solo 8 se activan por token, es decir, unos 3.800 millones de parámetros activos sobre un total de 25.200 millones. El parámetro --cpu-moe optimiza el enrutamiento para evitar el thrashing de caché, mientras que --merge-up-gate-experts fusiona dos proyecciones matriciales en una sola operación, reduciendo los viajes por el bus de memoria.

El ajuste del paralelismo a 8 hilos, coincidiendo con los núcleos físicos en lugar de los 16 hilos lógicos, responde a la naturaleza memory-bound de la carga: añadir más hilos solo incrementa la sobrecarga de planificación sin aportar rendimiento adicional. Otras_flags como --run-time-repack reorganizan las matrices de pesos en memoria para alinearlas con la disposición de caché del procesador, mientras que --mlock impide que el sistema operativo swapee los 27 GB del modelo al disco, lo que detendría la generación por completo.

El autor advierte que herramientas opacas como Ollama no exponen estos controles, por lo que resulta imprescindible comprender cada parámetro al trabajar con hardware antiguo. También señala que Ollama podría tardar meses en añadir soporte para el modelo, o incluso no hacerlo nunca, y que aun entonces no ofrecería los ajustes necesarios para optimizar este tipo de configuración.

Este experimento forma parte de una serie iniciada en una publicación anterior sobre la cuantización y preparación de los modelos borrador MTP de Gemma 4, y pone de manifiesto una tendencia creciente en la comunidad de código abierto: la búsqueda de formas creativas de democratizar el acceso a la inteligencia artificial más avanzada, aprovechando al máximo hardware que de otro modo quedaría obsoleto. Aunque las velocidades de generación obtenidas en este Xeon de 2016 no pueden competir con las de un sistema GPU moderno, la viabilidad técnica demuestra que las barreras de entrada para experimentar con modelos de frontera son más bajas de lo que sugiere la narrativa dominante sobre la necesidad de clústeres de computación masivos.

Temas

desarrollo seguridad

Etiquetas

llama.cpp xeon e5-2620 v4 intel open source gemma 4 mixture of experts optimización por software deepmind memory bandwidth decodificación especulativa xeon e5-2620 inference optimization speculative decoding cpu inference ddr3 inferencia de ia

Entidades mencionadas

Intel Xeon E5-2620 v4 hardware

DDR3 hardware

Gemma 4 software

H100 hardware

Ollama software

llama.cpp software

Se llama copla es un concurso musical dedicado a la interpretación de copla emitido en Andalucía (España) por Canal Sur Televisión, y en el resto de España y el extranjero por otras plataformas a trav

Ver en Wikipedia

Enlaces

download the quants huggingface.co

ikawrakow github.com