05 Jul 2026 · Original en inglés · Artículo

Decodificación especulativa: por qué la profundidad supera al ancho en GPU

Fuentes: Width vs. depth: speculating on the margin

Este análisis técnico de Doubleword examina un dilema habitual en la inferencia de modelos de lenguaje: cuando se busca aumentar el rendimiento por segundo en una sola GPU, ¿conviene aumentar el tamaño de lote (ancho) o apostar por la decodificación especulativa (profundidad)? El trabajo parte de un experimento mental con Qwen3.6-35B-A3B y demuestra que, contra la intuición, profundizar suele generar más tokens por segundo que ensanchar el lote, incluso cuando se rechaza el 10 % de los tokens especulados.

La clave está en el enrutamiento de expertos de las arquitecturas Mixture-of-Experts (MoE): la distribución de expertos activados decae de forma aproximadamente exponencial, lo que significa que unos pocos expertos concentran la mayor parte del trabajo. Cuando se especula, los tokens consecutivos son semánticamente similares y tienden a coactivar los mismos expertos, reduciendo el peso de memoria movido por la verificación. En cambio, añadir secuencias nuevas al lote activa expertos distintos por el efecto del coleccionista de cupones, incrementando el coste de memoria.

Además, el artículo muestra que las rondas de especulación se dividen entre «limpiezas» casi perfectas y fracasos tempranos. Aprovechar la confianza del propio drafter permite asignar profundidades distintas por secuencia (ragged batching), mejorando el rendimiento entre un 8 % y un 18 % frente a una profundidad fija, especialmente con lotes pequeños. Con lotes grandes la señal se diluye, pero siempre queda un impuesto base: cada token especular puede ser rechazado.

Temas

tecnologia

Etiquetas

speculative decoding mixture of experts moe routing llm inference inference optimization throughput gpu qwen3 deepseek doubleword

Enlaces

last post fergusfinn.com

specdec-calibration huggingface.co

coupon-collector maths fergusfinn.com

simulations github.com

all you need modal.com