Google presenta DiffusionGemma, un modelo abierto que genera texto en paralelo y multiplica por cuatro la velocidad

Fuentes: Google's latest DiffusionGemma open AI model comes with a 4x speed boost

Google DeepMind ha presentado DiffusionGemma, un nuevo modelo de la familia abierta Gemma 4 que abandona la generación autorregresiva tradicional —token a token, de izquierda a derecha— para producir bloques completos de texto en paralelo, una técnica inspirada en los modelos de generación de imagen. Según la compañía, este enfoque multiplica por cuatro el rendimiento de los modelos Gemma autoregresivos de tamaño similar y desplaza el cuello de botella del ancho de banda de memoria a la capacidad de cómputo, al generar hasta 256 tokens de forma simultánea.

El modelo es una arquitectura de Mezcla de Expertos (MoE) con 26.000 millones de parámetros totales, de los cuales solo 3.800 millones se activan durante la inferencia, lo que le permite ejecutarse en GPUs de gama alta con 18 GB de memoria. En pruebas con una RTX 5090, alcanza unos 700 tokens por segundo, y con un acelerador Nvidia H100 supera los 1.000 tokens por segundo.

Google destaca mejoras en tareas no lineales como edición de texto en línea, secuenciación molecular y graficación matemática. Como ejemplo, la empresa muestra la resolución de Sudokus, una tarea especialmente difícil para los modelos autorregresivos porque cada token depende de tokens futuros; la capacidad de autocorrección continua de DiffusionGemma facilita ese tipo de problemas.