Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation

Fuentes: Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation

Un nuevo estudio presenta una técnica para optimizar el mecanismo de autoatención en modelos Transformer, reduciendo significativamente los costos de cómputo y memoria. La investigación, basada en una aproximación de Taylor que considera la simetría de las operaciones, permite calcular la autoatención con un costo constante por token, independientemente de la longitud del contexto. Esto abre la puerta a la generación de tokens ilimitados con un costo fijo y reduce las demandas de infraestructura y energía de los modelos de lenguaje a gran escala. Las técnicas matemáticas desarrolladas también tienen valor independiente y podrían impactar el desarrollo futuro de la inteligencia artificial.