Google ha presentado nuevos checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que integra la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir los modelos. La novedad permite ejecutar Gemma 4 en dispositivos móviles y GPUs de consumo con menos memoria y manteniendo el rendimiento del modelo original.
Entre los avances destaca un formato de cuantización específico para móviles, con el que el modelo Gemma 4 E2B reduce su huella de memoria a 1 GB. El esquema incorpora activaciones estáticas precalculadas, cuantización por canal adaptada a aceleradores móviles, cuantización de 2 bits dirigida a las capas que generan tokens, y optimización de embeddings y caché KV. El modelo E2B en modo solo texto, sin embeddings por capa, se ejecuta con menos de 1 GB de memoria. Google también ofrece checkpoints QAT en el popular formato Q4_0, además de versiones sin cuantizar listas para convertir a otros formatos.
Los pesos están disponibles en Hugging Face, con soporte para flujos de trabajo con llama.cpp, Ollama, LM Studio, LiteRT-LM, Transformers.js, vLLM, MLX, Hugging Face Transformers y Unsloth. Los checkpoints MTP preservan la aceleración de la predicción multi-token tras la cuantización, según la compañía.
