DiffusionGemma: Google DeepMind cambia las reglas del texto y multiplica por cuatro la velocidad en local

Fuentes: DiffusionGemma: Google DeepMind cambia las reglas del texto y multiplica por cuatro la velocidad en local
DiffusionGemma: Google DeepMind cambia las reglas del texto y multiplica por cuatro la velocidad en local
Imagen generada con IA

DiffusionGemma: Google DeepMind cambia las reglas del texto y multiplica por cuatro la velocidad en local

Google DeepMind ha presentado DiffusionGemma, el primer modelo abierto de la familia Gemma 4 que abandona la generación autorregresiva. En lugar de escribir token a token de izquierda a derecha, produce bloques enteros de hasta 256 tokens en paralelo — una técnica prestada de los modelos de imagen. El resultado, en hardware local, es hasta cuatro veces más rápido que un Gemma autorregresivo del mismo tamaño.

La pieza, anunciada el 10 de junio de 2026, vuelve a poner a Google en el centro de la conversación sobre inferencia eficiente. Y, sobre todo, introduce una pregunta incómoda para el resto del sector: si el futuro de los modelos pequeños y abiertos pasa por el diffusion de texto, ¿qué hacen Mistral, Llama, Phi o Qwen con la misma idea?

Por qué el cambio de paradigma importa

Casi todos los modelos de lenguaje que se usan hoy — Gemini, GPT, Claude, Llama, Gemma autorregresivo, Mistral, DeepSeek — funcionan de la misma manera: predicen el siguiente token a partir de todos los anteriores, y van escribiendo la respuesta de izquierda a derecha, un token tras otro. Ese orden secuencial crea un cuello de botella físico: la GPU pasa la mayor parte del tiempo esperando a que la memoria le entregue el siguiente token, en vez de cómputo real. Es lo que en el sector se llama memory-bandwidth bound.

DiffusionGemma invierte esa lógica. En vez de generar un token cada vez, parte de un lienzo de tokens "ruido" — un canvas en blanco — y lo va refinando en paralelo durante varias iteraciones hasta converger en el texto final. Cada pasada mejora la estimación de todos los tokens a la vez. El cuello de botella pasa de la memoria al cómputo, y como las GPUs modernas tienen muchísimos más FLOPS que bandwidth, el cambio favorece al hardware local, donde el bandwidth siempre ha sido el recurso más escaso.

La técnica, en analogía

Pensar en un modelo de difusión de texto es pensar en un pintor que parte de un lienzo emborronado y va aclarando regiones hasta que aparece la imagen. Los modelos de imagen llevan años usando este enfoque (Stable Diffusion, Imagen, DALL·E). Lo que Google hace ahora es aplicar la misma idea al texto, con un matiz clave: el lenguaje es discreto — no existen "tokens a medio escribir" como sí existen píxeles a medio pintar. Cada token tiene que ser una palabra o fragmento real, y un error en uno puede arruinar un bloque entero. Google entrena al modelo precisamente para minimizar ese riesgo, refinando en cada iteración las zonas peor estimadas.

Qué trae DiffusionGemma

DiffusionGemma es un Mixture of Experts (MoE) con 26.000 millones de parámetros totales, de los cuales solo 3.800 millones se activan durante la inferencia. Esa arquitectura permite que el modelo "cabe" en los 18 GB de VRAM de una GPU de gama alta, una cifra muy habitual en tarjetas de escritorio profesionales y workstations.

En las pruebas publicadas por Google y reproducidas por Ars Technica:

  • RTX 5090: ~700 tokens por segundo
  • Nvidia H100 (una sola): 1.000+ tokens por segundo
  • Hasta 256 tokens generados en paralelo por iteración
  • ~4× el rendimiento de un Gemma 4 autorregresivo de tamaño comparable

Google no publica latencia time-to-first-token (lo que tarda en salir la primera palabra), pero al ser un modelo paralelo, la primera palabra útil puede aparecer tras unas pocas iteraciones de refinamiento en lugar de tras un prefill clásico. Es un patrón distinto al autorregresivo, no necesariamente mejor para chat en tiempo real, pero muy competitivo para generación de bloques.

Dónde gana y dónde pierde

El diffusion de texto brilla en tareas no lineales, aquellas donde el token correcto en una posición depende de información que aparece más adelante. Google destaca cuatro casos:

  • Edición de texto in-line: reescribir una frase conservando su sitio dentro de un párrafo largo, sin perder coherencia.
  • Secuenciación molecular: generar cadenas de ADN o proteínas donde cada token condiciona a los vecinos.
  • Graficado matemático: producir ecuaciones y curvas donde la coherencia global es lo que cuenta.
  • Resolución de Sudokus: el ejemplo más vistoso. Cada celda depende de las demás, y un modelo autorregresivo tradicional encadena errores; el diffusion, al poder autocorregir bloques completos, lo aborda mejor.

Donde no gana:

  • Outputs cortos (pocos tokens). El diffusion hace mucho trabajo paralelo para converger en cinco palabras; un autorregresivo las emite en cinco pasos. Desperdicio evidente.
  • Tareas de alta precisión, donde un token mal predicho puede invalidar todo el bloque. En imagen esto se tolera (un píxel raro no estropea la foto); en texto no.
  • Chat interactivo en tiempo real con latencia estricta, donde time-to-first-token sigue mandando.

Google reconoce ambas caras: DiffusionGemma es "tan capaz" como el resto de Gemma 4, pero está presentado como experimental. La compañía lo libera, eso sí, con la misma licencia Apache 2.0 que el resto de la familia.

Comparativa con el ecosistema

  • vs Gemma 4 autorregresivo: 4× más rápido en inferencia local, misma calidad general según Google.
  • vs Multi-Token Prediction (MTP): Google ya implementa drafters MTP en otros modelos, que predicen varios tokens a la vez usando cómputo que de otro modo se desperdiciaría. El diffusion es más rápido que el MTP, según la propia Google.
  • vs Mercury (Inception Labs) y vs Gemini Diffusion (la línea experimental de Google en cloud): el patrón es el mismo — difusión aplicada a texto —, pero hasta ahora no había una versión abierta de un hyperscaler. DiffusionGemma es la primera pieza open-source seria en este nicho.
  • vs LLaDA y Dream (modelos de difusión de texto chinos, académicos): DiffusionGemma los aventaja en tamaño, entrenamiento y respaldo industrial, aunque LLaDA y Dream siguen siendo referencias para entender el método.

Disponibilidad y precios

  • Licencia: Apache 2.0, comercializable sin restricciones.
  • Pesos: disponibles desde el lanzamiento en Hugging Face (google/diffusiongemma).
  • Optimización: Google trabajó con Nvidia para asegurar rendimiento en RTX de gama alta (con cuantización) y en sistemas enterprise como el H100 o la plataforma DGX Spark.
  • Coste para el desarrollador: cero en licenciamiento. El coste real es el hardware: hace falta una GPU con ≥18 GB de VRAM, lo que deja fuera a la mayoría de portátilesconsumer pero lo hace accesible a workstations, DGX Spark y servicios cloud con H100.

Reacción del sector

DiffusionGemma llega en un momento de presión competitiva feroz en el segmento "small/open". Mistral, Llama, Phi y Qwen han demostrado que los modelos abiertos pueden ser competitivos con los cerrados en tareas concretas. Google responde por dos vías: más capacidad (Gemma 4 con mayor contexto y multimodalidad) y más eficiencia por token (DiffusionGemma). La estrategia tiene sentido para defender la cuota de desarrolladores que corren modelos en local o en sus propias GPUs, un nicho en el que Google no tiene el dominio absoluto que sí tiene en cloud con Gemini.

La pregunta de fondo es si otros hyperscalers — Meta, Mistral, Alibaba/Qwen — reaccionarán con sus propios modelos de difusión de texto. La técnica no es nueva a nivel académico, pero hasta ahora ningún hyperscaler la había puesto en producción abierta con pesos descargables.

Outlook

A corto plazo (6–12 meses): cabe esperar forks y adaptaciones de DiffusionGemma a contextos más pequeños (cuantización agresiva, fine-tunes verticales), y los primeros benchmarks independientes que medirán la tasa de error real — el punto débil que Google ha reconocido.

A medio plazo (1–2 años): si la calidad del diffusion de texto converge con la del autorregresivo, veremos un cambio real en cómo se diseñan los modelos para inferencia local. La presión sobre Nvidia y los fabricantes de GPUs será a favor de más compute y menos bandwidth — justo la dirección en la que ya van las arquitecturas Rubin y la próxima generación.

A largo plazo: si Gemini cloud adopta diffusion para ciertos workloads (resúmenes largos, edición de documentos, generación de código no interactiva), la consecuencia será una reducción significativa de coste por token en el segmento enterprise. La historia de la inferencia cloud ha sido "más velocidad a menor coste por token"; el diffusion es, por primera vez en años, una palanca de cambio real en esa curva.


Fuentes:
- Ars Technica — "Google's latest DiffusionGemma open AI model comes with a 4x speed boost" (10 jun 2026)
- Google DeepMind — Gemma 4 model family announcement
- Hugging Face — google/diffusiongemma (pesos, licencia Apache 2.0)
- Nvidia — optimizations para RTX, H100 y DGX Spark
- Cobertura relacionada en ojeo.com: "Google presenta DiffusionGemma, un modelo experimental de texto hasta cuatro veces más rápido"

Artículo del redactor jefe. Para feedback o correcciones, canal directo con Javi.