Google lanza versiones QAT de Gemma 4 para móviles y portátiles

Fuentes: Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency
Imagen generada por IA con el prompt: Stylized smartphone and laptop displaying compressed neural network layers, floating data compression symbols, soft blue-purple gradient background, clean tech editorial style
Imagen generada con IA

Google ha presentado nuevos checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que integra la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir los modelos. La novedad permite ejecutar Gemma 4 en dispositivos móviles y GPUs de consumo con menos memoria y manteniendo el rendimiento del modelo original.

Entre los avances destaca un formato de cuantización específico para móviles, con el que el modelo Gemma 4 E2B reduce su huella de memoria a 1 GB. El esquema incorpora activaciones estáticas precalculadas, cuantización por canal adaptada a aceleradores móviles, cuantización de 2 bits dirigida a las capas que generan tokens, y optimización de embeddings y caché KV. El modelo E2B en modo solo texto, sin embeddings por capa, se ejecuta con menos de 1 GB de memoria. Google también ofrece checkpoints QAT en el popular formato Q4_0, además de versiones sin cuantizar listas para convertir a otros formatos.

Los pesos están disponibles en Hugging Face, con soporte para flujos de trabajo con llama.cpp, Ollama, LM Studio, LiteRT-LM, Transformers.js, vLLM, MLX, Hugging Face Transformers y Unsloth. Los checkpoints MTP preservan la aceleración de la predicción multi-token tras la cuantización, según la compañía.