Investigación revela alternativas eficientes a las proyecciones QKV en Transformers
Un nuevo estudio explora la necesidad de las tres proyecciones (Query, Key, Value) en los Transformers, componentes centrales de la arquitectura para tareas de inteligencia artificial. Los investigadores evaluaron restricciones de compartición de proyecciones, incluyendo la combinación de Q-K=V, Q=K
