EAGLE 3.1 soluciona el 'attention drift' en decodificación especulativa

Fuentes: EAGLE 3.1: Advancing Speculative Decoding Through Collaboration Between the EAGLE Team, vLLM, and TorchSpec
EAGLE 3.1 soluciona el 'attention drift' en decodificación especulativa
Imagen generada con IA

El equipo EAGLE, en colaboración con vLLM y TorchSpec, ha presentado EAGLE 3.1, una evolución clave en el algoritmo de speculative decoding. Esta tecnología, ampliamente utilizada en sistemas de producción, soluciona la fragilidad de sus predecesores ante variaciones en plantillas de chat y entradas de contexto largo, un fenómeno conocido como 'attention drift'. La actualización introduce mejoras arquitectónicas como la normalización FC y el feedback de estados ocultos post-normalizados, lo que incrementa la estabilidad y la eficiencia. EAGLE 3.1 ya está integrado en vLLM como una extensión configurable, permitiendo una actualización fluida en entornos de producción. Según benchmarks preliminares con el modelo Kimi K2.6, la nueva versión ofrece una mejora de 2,03 veces en el throughput de salida y soporta hasta dos veces más longitud de aceptación en cargas de trabajo de contexto largo.