Google presenta DiffusionGemma, un modelo experimental de texto hasta cuatro veces más rápido

Fuentes: DiffusionGemma: 4x faster text generation
Imagen generada por IA con el prompt: Editorial illustration of a glowing digital printing press stamping an entire paragraph at once on a dark background, with scattered tokens and abstract neural network nodes, futuristic tech aesthetic, blue and violet to
Imagen generada con IA

Google ha presentado DiffusionGemma, un modelo abierto experimental basado en la familia Gemma 4 que aplica la técnica de difusión —hasta ahora usada en generación de imágenes— a la producción de texto. Se trata de un modelo de tipo Mixture of Experts con 26.000 millones de parámetros totales, de los que activa 3.800 millones durante la inferencia, y se distribuye bajo licencia Apache 2.0.

A diferencia de los modelos autorregresivos, que generan el texto token a token de forma secuencial, DiffusionGemma produce bloques de 256 tokens en paralelo dentro de cada pasada hacia adelante, lo que desplaza el cuello de botella del ancho de banda de memoria al cómputo. En pruebas internas alcanza más de 1.000 tokens por segundo en una sola GPU NVIDIA H100 y más de 700 en una GeForce RTX 5090, una mejora de hasta cuatro veces frente a la generación autorregresiva local.

El modelo está pensado para flujos de trabajo interactivos en local —edición en línea, iteración rápida o generación de estructuras no lineales como código, secuencias de aminoácidos o grafos matemáticos— y no como sustituto de Gemma 4 en producción, ya que su prioridad es la velocidad y la calidad global del output es inferior. Google ha publicado los pesos en Hugging Face, junto con integraciones para MLX, vLLM, Hugging Face Transformers, NVIDIA NeMo, Unsloth y soporte inminente para llama.cpp, además de tutoriales de fine-tuning con la toolbox Hackable Diffusion en JAX.