Google ha presentado DiffusionGemma, un modelo experimental de inteligencia artificial de código abierto que promete revolucionar la generación de texto al ofrecer velocidades hasta cuatro veces superiores a las de los modelos tradicionales. El anuncio, realizado a través del blog oficial de la compañía, marca un hito en la aplicación de técnicas de difusión —hasta ahora reservadas principalmente a la generación de imágenes— al procesamiento de lenguaje natural.
A diferencia de los modelos de lenguaje autorregresivos convencionales, que generan texto token a token de forma secuencial —como una máquina de escribir—, DiffusionGemma adopta un enfoque radicalmente distinto: produce bloques completos de 256 tokens en paralelo durante cada pasada. Según Google, este mecanismo le permite alcanzar más de 1.000 tokens por segundo en una GPU NVIDIA H100 y superar los 700 tokens por segundo en una tarjeta GeForce RTX 5090, dependiendo de la configuración.
El modelo se basa en la familia Gemma 4 de Google e incorpora un cabezal de difusión novel diseñado para maximizar la velocidad de generación. Se trata de una arquitectura de Mezcla de Expertos (MoE) con 26.000 millones de parámetros totales, de los cuales solo 3.800 millones se activan durante la inferencia. Esta característica le permite funcionar en hardware de consumo con límites de 18 GB de VRAM cuando se cuantiza, abriendo la puerta a su uso en equipos locales de alta gama.
Entre las ventajas técnicas que destaca Google sobresalen la atención bidireccional, que permite que cada token atienda al contexto completo del bloque generado, y una capacidad de autocorrección iterativa, mediante la cual el modelo evalúa y refina el texto completo en cada ciclo. Estas propiedades resultan especialmente útiles para tareas no lineales como la edición en línea, el relleno de código, las secuencias de aminoácidos o los gráficos matemáticos. Como demostración, Google y la comunidad de Unsloth han mostrado una versión ajustada del modelo capaz de resolver Sudokus, una tarea que resulta extremadamente difícil para los modelos autorregresivos precisamente porque cada ficha depende de las futuras.
No obstante, la propia Google advierte de limitaciones importantes. La calidad global del output de DiffusionGemma es inferior a la de los modelos Gemma 4 estándar, por lo que la compañía recomienda seguir utilizando estos últimos para aplicaciones de producción que requieran máxima fidelidad. Además, la ventaja de velocidad está optimizada para inferencia local o de baja concurrencia; en escenarios de cloud con alto número de consultas por segundo, los modelos autorregresivos pueden saturar la computación de forma más eficiente, lo que reduce e incluso revierte el beneficio del paralelismo.
El modelo se distribuye bajo licencia Apache 2.0 y ya está disponible para descarga en Hugging Face. Google ha trabajado con NVIDIA para optimizar el rendimiento en hardware como las arquitecturas Hopper y Blackwell, incluyendo compatibilidad con kernels NVFP4 de 4 bits para acelerar el cálculo con una pérdida mínima de precisión. También se ha habilitado soporte para herramientas de desarrollo populares como MLX, vLLM, Hugging Face Transformers y, próximamente, llama.cpp. Para los desarrolladores que deseen experimentar, Google ha publicado una guía técnica, un tutorial de ajuste fino mediante la biblioteca Hackable Diffusion y demos accesibles a través de plataformas como Gemini Enterprise o NVIDIA NIM.
La fuente consultada del diario 20minutos coincide en los puntos esenciales del anuncio: destaca el carácter experimental y de código abierto del modelo, así como la mejora de hasta cuatro veces en la velocidad de generación, aunque no aporta datos técnicos adicionales más allá de la información difundida por la propia Google.
En definitiva, DiffusionGemma representa un experimento significativo en la búsqueda de alternativas a la generación autorregresiva de texto. Si bien no está llamado a sustituir a corto plazo a los modelos de producción, abre una vía prometedora para aplicaciones interactivas en tiempo real ejecutadas en hardware local, un segmento donde la latencia y la capacidad de respuesta inmediata son factores críticos.
