Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles

Fuentes: Introducing Gemma 4 12B: a unified, encoder-free multimodal model, arstechnica.com
Imagen generada por IA con el prompt: Stylized laptop with glowing neural network visualization on screen, floating geometric data particles around it, modern editorial illustration, dark blue and cyan gradient background
Imagen generada con IA

Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles

Google ha presentado Gemma 4 12B, un nuevo modelo de inteligencia artificial de código abierto que destaca por su arquitectura multimodal unificada y por su capacidad de ejecutarse en portátiles convencionales con tan solo 16 GB de memoria RAM o VRAM. El modelo, publicado bajo licencia Apache 2.0, llega para llenar un vacío en la familia Gemma 4 y acercar las capacidades avanzadas de razonamiento, visión y audio a equipos de consumo, sin necesidad de costosos aceleradores de inteligencia artificial.

Según el anuncio oficial publicado en el blog de Google, Gemma 4 12B es el primer modelo de tamaño medio de la compañía en incorporar entradas de audio de forma nativa. Su principal novedad técnica reside en una arquitectura unificada y "sin codificadores" (encoder-free), en la que las señales de visión y de audio se introducen directamente en el núcleo del modelo de lenguaje, sin pasar por módulos separados de codificación. De acuerdo con Google, este diseño reduce la latencia y el consumo de memoria, a la vez que simplifica la inferencia. En concreto, la compañía sustituyó el codificador de visión por un módulo ligero basado en una multiplicación de matrices con embeddings posicionales, y eliminó por completo el codificador de audio, proyectando la señal en bruto al mismo espacio dimensional que los tokens de texto.

El nuevo modelo se sitúa a medio camino entre las versiones optimizadas para móviles (E2B y E4B) y los modelos de mayor capacidad lanzados en abril, el 26B Mixture of Experts (MoE) y el 31B Dense. Como recuerda Ars Technica, la familia Gemma 4, presentada originalmente en abril, dejó sin cubrir precisamente ese segmento intermedio, algo que ahora viene a resolver el nuevo 12B. Google asegura que su rendimiento en pruebas de referencia se aproxima al del modelo 26B MoE, ocupando menos de la mitad de su huella de memoria. Esta eficiencia se complementa con el uso de Multi-Token Prediction (MTP), unos "drafter" que permiten generar varios tokens a la vez y reducen la latencia en las respuestas.

El carácter abierto del proyecto es uno de sus ejes centrales. Gemma 4 12B se distribuye bajo la licencia Apache 2.0, la misma que adoptó Google para los modelos de la familia desde abril, lo que facilita su uso comercial y su modificación. Los pesos están disponibles en Hugging Face y Kaggle, y el modelo es compatible con las principales herramientas del ecosistema de desarrollo: LM Studio, Ollama, Google AI Edge Gallery, Google AI Edge Eloquent, LiteRT-LM CLI, Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM y Unsloth para el ajuste fino. Google también ha publicado una guía oficial para desarrolladores y un repositorio de "Skills" orientado a la construcción de agentes autónomos con los modelos Gemma. Para entornos de producción, la compañía ofrece despliegue a través de Gemini Enterprise Agent Platform Model Garden, Cloud Run y Google Kubernetes Engine (GKE).

La comunidad de desarrolladores ha sido clave en la trayectoria de la familia. Según Google, los modelos Gemma 4 han superado ya los 150 millones de descargas, con aplicaciones que van desde brazos robóticos vestibles para asistencia física hasta sistemas de seguridad empresarial basados en IA. Este ecosistema sugiere que la llegada de un modelo más eficiente y multimodal puede ampliar todavía más la base de usuarios y casos de uso.

En el plano del análisis, el lanzamiento llega en un momento de fuerte presión sobre el mercado de la memoria, encarecida por la creciente demanda de chips y equipos para inteligencia artificial generativa, como recuerda Ars Technica. En ese contexto, la apuesta de Google por modelos que se ejecuten localmente en hardware de consumo —y no únicamente en la nube— puede interpretarse como una respuesta tanto a la demanda de los desarrolladores como a las limitaciones de suministro y coste que atraviesa el sector. Al mismo tiempo, la estrategia refleja una tendencia más amplia: la búsqueda de arquitecturas más simples y eficientes que igualen las prestaciones de modelos mucho mayores.

En definitiva, Gemma 4 12B refuerza la apuesta de Google por una inteligencia artificial abierta, multimodal y accesible. Su capacidad para correr en portátiles de gama media con 16 GB de memoria marca un nuevo umbral de eficiencia en modelos de tamaño medio y abre la puerta a una nueva generación de aplicaciones locales con comprensión de texto, imagen y audio. Queda por ver cómo responderán los desarrolladores a esta propuesta y qué impacto tendrá en la competencia con otros modelos abiertos del mercado.