La economía de la decodificación especulativa en modelos de lenguaje

Fuentes: The economics of speculative decoding

La decodificación especulativa es una técnica de optimización en inferencia de modelos de lenguaje que acelera la generación de tokens sin pérdida de calidad. Su principio es simple: el modelo predice varios tokens futuros de forma barata y luego verifica solo los aceptados, aprovechando el ancho de banda de memoria ocioso. Dos cambios arquitectónicos recientes alteran esta economía: el uso de mezcla de expertos (MoE) y la compresión de atención.

Las capas MoE, como las de DeepSeek-V4-Flash, reemplazan las redes densas por múltiples expertos enrutados por token. A lotes pequeños, cada nuevo token activa expertos diferentes, reduciendo la amortización de pesos y haciendo que los tokens especulados paguen casi el costo completo. A lotes grandes, la pendiente de la curva de intensidad aritmética es más suave, lo que amplía la banda de memoria donde los tokens especulados son casi gratuitos, pero el beneficio marginal disminuye.

La compresión de atención, ejemplificada por la atención latente multihead (MLA) de DeepSeek, reduce los bytes transferidos por token de contexto. En decodificación con un solo token de consulta, la atención sigue ligada a memoria, pero añadir tokens especulados la lleva rápidamente al límite computacional. Incluso con MLA, especular múltiples tokens puede mejorar el rendimiento global, aunque no de forma lineal.

En conjunto, estos cambios hacen que la ganancia de la decodificación especulativa dependa críticamente del tamaño del lote y de la profundidad de la especulación. A lotes pequeños, la penalización por tokens rechazados ya no es cero; a lotes grandes, el margen de mejora se ensancha. La optimización actual requiere modelos precisos del roofline del hardware y de la arquitectura del modelo.