Decodificación especulativa: por qué la profundidad supera al ancho en GPU
Este análisis técnico de Doubleword examina un dilema habitual en la inferencia de modelos de lenguaje: cuando se busca aumentar el rendimiento por segundo en una sola GPU, ¿conviene aumentar el tamaño de lote (ancho) o apostar por la decodificación especulativa (profundidad)? El trabajo parte de un
