05 Jun 2026 · Original en inglés · Resumen IA

Google lanza versiones QAT de Gemma 4 para móviles y portátiles

Fuentes: Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

Imagen generada por IA con el prompt: Stylized smartphone and laptop displaying compressed neural network layers, floating data compression symbols, soft blue-purple gradient background, clean tech editorial style — Imagen generada con IA

Google ha presentado nuevos checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que integra la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir los modelos. La novedad permite ejecutar Gemma 4 en dispositivos móviles y GPUs de consumo con menos memoria y manteniendo el rendimiento del modelo original.

Entre los avances destaca un formato de cuantización específico para móviles, con el que el modelo Gemma 4 E2B reduce su huella de memoria a 1 GB. El esquema incorpora activaciones estáticas precalculadas, cuantización por canal adaptada a aceleradores móviles, cuantización de 2 bits dirigida a las capas que generan tokens, y optimización de embeddings y caché KV. El modelo E2B en modo solo texto, sin embeddings por capa, se ejecuta con menos de 1 GB de memoria. Google también ofrece checkpoints QAT en el popular formato Q4_0, además de versiones sin cuantizar listas para convertir a otros formatos.

Los pesos están disponibles en Hugging Face, con soporte para flujos de trabajo con llama.cpp, Ollama, LM Studio, LiteRT-LM, Transformers.js, vLLM, MLX, Hugging Face Transformers y Unsloth. Los checkpoints MTP preservan la aceleración de la predicción multi-token tras la cuantización, según la compañía.

Temas

empresas

Etiquetas

gemma 4 quantization-aware training google mobile ai edge devices hugging face llama.cpp vllm mlx ollama

Entidades mencionadas

vLLM software

MLX software

LiteRT-LM software

Gemma 4 software

LM Studio software

Ollama software

Unsloth software

Multi-Token Prediction protocol_standard

Quantization-Aware Training protocol_standard

Transformers.js software

Hugging Face organization

llama.cpp software

Se llama copla es un concurso musical dedicado a la interpretación de copla emitido en Andalucía (España) por Canal Sur Televisión, y en el resto de España y el extranjero por otras plataformas a trav

Ver en Wikipedia

Google organization

Google es una empresa de tecnología multinacional con sede en California, conocida por sus servicios de búsqueda, publicidad en línea y, según el artículo, por sus comités de contratación que evalúan

Ver en Wikipedia

Enlaces

Q4_0 huggingface.co

mobile huggingface.co

documentation ai.google.dev

Ollama ollama.com

LM Studio lmstudio.ai

LiteRT-LM huggingface.co

Transformers.js huggingface.co

MLX huggingface.co

Unsloth unsloth.ai