Este análisis técnico de Doubleword examina un dilema habitual en la inferencia de modelos de lenguaje: cuando se busca aumentar el rendimiento por segundo en una sola GPU, ¿conviene aumentar el tamaño de lote (ancho) o apostar por la decodificación especulativa (profundidad)? El trabajo parte de un experimento mental con Qwen3.6-35B-A3B y demuestra que, contra la intuición, profundizar suele generar más tokens por segundo que ensanchar el lote, incluso cuando se rechaza el 10 % de los tokens especulados.
La clave está en el enrutamiento de expertos de las arquitecturas Mixture-of-Experts (MoE): la distribución de expertos activados decae de forma aproximadamente exponencial, lo que significa que unos pocos expertos concentran la mayor parte del trabajo. Cuando se especula, los tokens consecutivos son semánticamente similares y tienden a coactivar los mismos expertos, reduciendo el peso de memoria movido por la verificación. En cambio, añadir secuencias nuevas al lote activa expertos distintos por el efecto del coleccionista de cupones, incrementando el coste de memoria.
Además, el artículo muestra que las rondas de especulación se dividen entre «limpiezas» casi perfectas y fracasos tempranos. Aprovechar la confianza del propio drafter permite asignar profundidades distintas por secuencia (ragged batching), mejorando el rendimiento entre un 8 % y un 18 % frente a una profundidad fija, especialmente con lotes pequeños. Con lotes grandes la señal se diluye, pero siempre queda un impuesto base: cada token especular puede ser rechazado.
