Gemma 4: Google acelera modelos de lenguaje

Fuentes: Accelerating Gemma 4: faster inference with multi-token prediction drafters

Google ha anunciado el lanzamiento de "Redactores de Predicción de Múltiples Tokens (MTP)" para la familia de modelos Gemma 4, una actualización diseñada para acelerar significativamente la inferencia de estos modelos de lenguaje de código abierto. Estos redactores utilizan una arquitectura de decodificación especulativa que permite hasta un 3x de aumento en la velocidad de procesamiento sin comprometer la calidad de la salida ni la lógica de razonamiento. La mejora se logra al permitir que un modelo más pequeño (el redactor) prediga múltiples tokens simultáneamente mientras el modelo principal (Gemma 4) verifica las predicciones en paralelo, optimizando el uso de la potencia de cálculo y reduciendo la latencia, especialmente en hardware de consumo.

Esta innovación aborda una limitación común en la inferencia de LLMs, donde el proceso está limitado por el ancho de banda de la memoria. Los redactores MTP ofrecen beneficios significativos para los desarrolladores, incluyendo una mayor capacidad de respuesta en aplicaciones en tiempo real, un desarrollo local más rápido y un mejor rendimiento en dispositivos de borde, como teléfonos móviles. Los modelos Gemma 4 con redactores MTP están disponibles bajo la licencia Apache 2.0 y se pueden descargar desde Hugging Face, Kaggle y otras plataformas, invitando a la comunidad a explorar y aprovechar esta mejora en la eficiencia de la IA.