Google presenta TurboQuant: IA más rápida y eficiente

Fuentes: TurboQuant: Redefining AI efficiency with extreme compression

Investigadores de Google Research han anunciado TurboQuant, un nuevo algoritmo de compresión que promete mejorar significativamente la eficiencia de los modelos de lenguaje grandes y los sistemas de búsqueda vectorial. Presentado el 24 de marzo de 2026, TurboQuant aborda el problema del “overhead” de memoria inherente a las técnicas tradicionales de cuantización vectorial, un proceso crucial para reducir el tamaño de los vectores que los modelos de IA utilizan para procesar información. El algoritmo, que se presentará en la conferencia ICLR 2026, funciona mediante una rotación aleatoria de los datos, simplificando su geometría para una compresión de alta calidad, y luego utilizando el algoritmo Quantized Johnson-Lindenstrauss (QJL) para eliminar errores residuales. Además, PolarQuant, otro componente clave, optimiza la compresión al convertir los vectores a coordenadas polares, eliminando la necesidad de costosos procesos de normalización de datos. Las pruebas realizadas con modelos de lenguaje de código abierto como Gemma y Mistral demostraron un rendimiento óptimo en diversas tareas, incluyendo respuesta a preguntas, generación de código y resumen, sin sacrificar la precisión del modelo y reduciendo significativamente la huella de memoria clave-valor. Esta innovación tiene implicaciones importantes para el desarrollo de sistemas de búsqueda y aplicaciones de inteligencia artificial que dependen de la compresión de datos.