Un nuevo estudio explora la necesidad de las tres proyecciones (Query, Key, Value) en los Transformers, componentes centrales de la arquitectura para tareas de inteligencia artificial. Los investigadores evaluaron restricciones de compartición de proyecciones, incluyendo la combinación de Q-K=V, Q=K-V y Q=K=V, observando que las variantes resultantes pueden igualar o incluso superar el rendimiento de los Transformers estándar. La compartición de proyecciones, especialmente Q-K=V, permite una reducción significativa en el tamaño de la caché (hasta el 50%) con una mínima degradación en la precisión (3.1% en modelos de lenguaje). Esta técnica es compatible con métodos de compartición de cabezas (GQA/MQA), maximizando la reducción de memoria y facilitando la inferencia en dispositivos con recursos limitados. El estudio concluye que la compartición de proyecciones es una forma efectiva de optimizar los Transformers, con beneficios tangibles en el uso de memoria, especialmente para aplicaciones en el borde.
