Transformadores: estudio revela desafíos en cuantificación binaria

Fuentes: Research finds limitations in binary transformer quantization

Una investigación reciente, alojada en el repositorio SALOMI en GitHub, ha revelado limitaciones en la cuantificación binaria de transformadores, una técnica utilizada para reducir el tamaño y mejorar la eficiencia de los modelos de lenguaje grandes (LLM). El estudio, centrado en la cuantificación extrema de bits bajos, inicialmente exploró la viabilidad de representar los pesos de los modelos con representaciones binarias (1 bit) o casi binarias. Sin embargo, la investigación concluyó que la cuantificación binaria estricta, después de la cuantificación, no es una solución viable para modelos de lenguaje de la clase GPT-2 bajo una evaluación rigurosa.

Los resultados más prácticos y creíbles se obtuvieron utilizando métodos como la cuantificación guiada por la hessiana, la precisión mixta o la recuperación de la magnitud, que resultaron en una representación de bits por parámetro (bpp) de aproximadamente 1.2 a 1.35. El repositorio, que se describe como un espacio de trabajo de investigación más que como un paquete de producción listo para usar, incluye herramientas de cuantificación, scripts de prueba y documentación detallada sobre los hallazgos y las limitaciones. Los investigadores enfatizan que los lectores deben priorizar los documentos actualizados (RESEARCH.md, documentos en la carpeta 'docs' y pruebas) sobre los borradores de documentos más antiguos para obtener la interpretación más precisa de los resultados.