ZSE: Motor optimiza LLMs y reduce el uso de memoria

Fuentes: New Engine Dramatically Reduces Memory Requirements for Large Language Models

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria significativamente menor, manteniendo al mismo tiempo un rendimiento competitivo. La clave de esta eficiencia radica en su 'Intelligence Orchestrator', que optimiza el uso de la memoria disponible. El motor incorpora innovaciones como 'zAttention' (kernels CUDA personalizados), 'zQuantize' (cuantificación de precisión mixta), 'zKV' (caché KV cuantificado) y 'zStream' (streaming de capas). En pruebas realizadas en una GPU A100-80GB, ZSE redujo el tiempo de inicio para el modelo Qwen 7B de 45.4 segundos a 3.9 segundos, y para Qwen 32B de 120 segundos a 21.4 segundos. La instalación es sencilla a través de pip install zllm-zse, y el motor es compatible con una amplia gama de modelos de Hugging Face, así como con formatos GGUF. ZSE también ofrece una API compatible con OpenAI, facilitando la integración con aplicaciones existentes. El proyecto está disponible bajo licencia Apache 2.0 y se basa en investigaciones previas como vLLM y Flash Attention.