Investigadores han desarrollado una nueva técnica llamada Consistency Diffusion Language Models (CDLM) que acelera significativamente la inferencia de modelos de lenguaje de difusión (DLMs). CDLM logra hasta 14.5 veces más velocidad en tareas de matemáticas y programación, sin sacrificar la calidad de la generación. Los DLMs, una alternativa prometedora a los modelos de lenguaje autoregresivos, generan texto refinando iterativamente una secuencia enmascarada. CDLM aborda dos ineficiencias clave: la incompatibilidad con el almacenamiento en caché de KV debido a la atención bidireccional completa y la necesidad de numerosos pasos de refinamiento para mantener la calidad. La técnica implica un proceso de entrenamiento que recolecta trayectorias de inferencia, utiliza una máscara de atención causal por bloques y optimiza tres objetivos: destilación, consistencia y una pérdida de denoising estándar. Los resultados muestran una reducción significativa en los pasos de refinamiento, una mejora en el rendimiento y una mejor utilización del hardware, especialmente en configuraciones de lotes pequeños. CDLM representa un avance importante en la eficiencia de los modelos de lenguaje de difusión, abriendo camino a aplicaciones más rápidas y potentes.
