10 Jun 2026 · Original en inglés · Artículo

Google presenta DiffusionGemma, un modelo experimental de texto hasta cuatro veces más rápido

Fuentes: DiffusionGemma: 4x faster text generation, 20minutos.esT3clickbait

Imagen generada por IA con el prompt: Editorial illustration of a glowing digital printing press stamping an entire paragraph at once on a dark background, with scattered tokens and abstract neural network nodes, futuristic tech aesthetic, blue and violet to — Imagen generada con IA

Google ha presentado DiffusionGemma, un modelo experimental de inteligencia artificial de código abierto que promete revolucionar la generación de texto al ofrecer velocidades hasta cuatro veces superiores a las de los modelos tradicionales. El anuncio, realizado a través del blog oficial de la compañía, marca un hito en la aplicación de técnicas de difusión —hasta ahora reservadas principalmente a la generación de imágenes— al procesamiento de lenguaje natural.

A diferencia de los modelos de lenguaje autorregresivos convencionales, que generan texto token a token de forma secuencial —como una máquina de escribir—, DiffusionGemma adopta un enfoque radicalmente distinto: produce bloques completos de 256 tokens en paralelo durante cada pasada. Según Google, este mecanismo le permite alcanzar más de 1.000 tokens por segundo en una GPU NVIDIA H100 y superar los 700 tokens por segundo en una tarjeta GeForce RTX 5090, dependiendo de la configuración.

El modelo se basa en la familia Gemma 4 de Google e incorpora un cabezal de difusión novel diseñado para maximizar la velocidad de generación. Se trata de una arquitectura de Mezcla de Expertos (MoE) con 26.000 millones de parámetros totales, de los cuales solo 3.800 millones se activan durante la inferencia. Esta característica le permite funcionar en hardware de consumo con límites de 18 GB de VRAM cuando se cuantiza, abriendo la puerta a su uso en equipos locales de alta gama.

Entre las ventajas técnicas que destaca Google sobresalen la atención bidireccional, que permite que cada token atienda al contexto completo del bloque generado, y una capacidad de autocorrección iterativa, mediante la cual el modelo evalúa y refina el texto completo en cada ciclo. Estas propiedades resultan especialmente útiles para tareas no lineales como la edición en línea, el relleno de código, las secuencias de aminoácidos o los gráficos matemáticos. Como demostración, Google y la comunidad de Unsloth han mostrado una versión ajustada del modelo capaz de resolver Sudokus, una tarea que resulta extremadamente difícil para los modelos autorregresivos precisamente porque cada ficha depende de las futuras.

No obstante, la propia Google advierte de limitaciones importantes. La calidad global del output de DiffusionGemma es inferior a la de los modelos Gemma 4 estándar, por lo que la compañía recomienda seguir utilizando estos últimos para aplicaciones de producción que requieran máxima fidelidad. Además, la ventaja de velocidad está optimizada para inferencia local o de baja concurrencia; en escenarios de cloud con alto número de consultas por segundo, los modelos autorregresivos pueden saturar la computación de forma más eficiente, lo que reduce e incluso revierte el beneficio del paralelismo.

El modelo se distribuye bajo licencia Apache 2.0 y ya está disponible para descarga en Hugging Face. Google ha trabajado con NVIDIA para optimizar el rendimiento en hardware como las arquitecturas Hopper y Blackwell, incluyendo compatibilidad con kernels NVFP4 de 4 bits para acelerar el cálculo con una pérdida mínima de precisión. También se ha habilitado soporte para herramientas de desarrollo populares como MLX, vLLM, Hugging Face Transformers y, próximamente, llama.cpp. Para los desarrolladores que deseen experimentar, Google ha publicado una guía técnica, un tutorial de ajuste fino mediante la biblioteca Hackable Diffusion y demos accesibles a través de plataformas como Gemini Enterprise o NVIDIA NIM.

La fuente consultada del diario 20minutos coincide en los puntos esenciales del anuncio: destaca el carácter experimental y de código abierto del modelo, así como la mejora de hasta cuatro veces en la velocidad de generación, aunque no aporta datos técnicos adicionales más allá de la información difundida por la propia Google.

En definitiva, DiffusionGemma representa un experimento significativo en la búsqueda de alternativas a la generación autorregresiva de texto. Si bien no está llamado a sustituir a corto plazo a los modelos de producción, abre una vía prometedora para aplicaciones interactivas en tiempo real ejecutadas en hardware local, un segmento donde la latencia y la capacidad de respuesta inmediata son factores críticos.

Temas

ia desarrollo empresas seguridad tecnologia

Etiquetas

nvidia gpu inference text diffusion rtx 5090 modelos de difusión mixture of experts gpu código abierto google hugging face nvidia h100 apache 2.0 gemma 4 diffusiongemma inteligencia artificial open source procesamiento de lenguaje natural

Entidades mencionadas

NVIDIA H100 hardware

Apache 2.0 regulation

Gemini Diffusion software

Gemma 4 software

Hugging Face organization

Red Hat organization

Red Hat, Inc. es una multinacional estadounidense de software que provee software de código abierto (FOSS) principalmente a empresas. Fundada en 1993, Red Hat tiene su sede corporativa en Raleigh, Car

Ver en Wikipedia

Google DeepMind organization

Google DeepMind es una compañía inglesa de investigación y desarrollo de inteligencia artificial adquirida el 26 de enero de 2014 por Alphabet Inc., empresa matriz de Google.

Ver en Wikipedia

Google organization

Google es una empresa de tecnología multinacional con sede en California, conocida por sus servicios de búsqueda, publicidad en línea y, según el artículo, por sus comités de contratación que evalúan

Ver en Wikipedia

DiffusionGemma software

NVIDIA GeForce RTX 5090 hardware

Hackable Diffusion software

Unsloth person

Geoffrey Gilyard Unsworth, 26 de mayo de 1914; París, Francia, 28 de octubre de 1978) fue un director de fotografía británico que trabajó en casi noventa largometrajes durante una carrera que terminó

Ver en Wikipedia

Nvidia organization

Nvidia es una empresa tecnológica líder en el desarrollo de GPUs, incluyendo las H200 utilizadas por Kog AI para demostrar inferencia de tokens a alta velocidad. La empresa es un actor clave en el mer

Ver en Wikipedia