Investigadores han desarrollado una nueva técnica para comprimir incrustaciones (embeddings) de modelos de lenguaje, mejorando significativamente la eficiencia sin sacrificar la calidad de la recuperación de información. La técnica, denominada 'poly-autoencoder', combina un codificador PCA (Principal Component Analysis) con un decodificador cuadrático, permitiendo capturar información no lineal que los métodos lineales tradicionales pierden. El método es de aplicación cerrada, sin necesidad de ajuste de hiperparámetros ni entrenamiento con SGD (Stochastic Gradient Descent). Los resultados muestran que 'poly-autoencoder' puede lograr una compresión de memoria de hasta 4 veces por vector, con una pérdida mínima en el NDCG@10 (una métrica de calidad de recuperación), a veces incluso superando el rendimiento de la compresión PCA estándar. En modelos específicos, como 'mxbai-embed-large-v1', la técnica recupera hasta el 90% de la diferencia de rendimiento entre la versión sin comprimir y la comprimida con PCA. La implementación, basada en NumPy, está disponible en GitHub y puede reproducirse en aproximadamente 30-40 minutos en un MacBook M-series. Esta innovación representa un avance importante para la optimización de modelos de lenguaje, especialmente en aplicaciones de recuperación de información donde la eficiencia de memoria es crucial.
