macs ejecutan IA potente: llega Hypura

Fuentes: Hypura allows large language models to run on Macs with limited memory

Hypura es una nueva herramienta de código abierto que permite a los usuarios ejecutar modelos de lenguaje grandes (LLM) en Macs con memoria limitada. Desarrollada por un equipo anónimo, Hypura optimiza la ubicación de los tensores del modelo (datos) entre la GPU, la RAM y el almacenamiento NVMe, permitiendo que modelos que superan la memoria física del sistema se ejecuten sin fallos. Por ejemplo, puede ejecutar un modelo Mixtral 8x7B de 31 GB en un Mac Mini de 32 GB, algo que llama.cpp no puede hacer. La herramienta analiza la arquitectura del modelo para colocar eficientemente los tensores: los elementos críticos se almacenan en la GPU, los expertos de los modelos MoE se cargan bajo demanda con una caché de alta eficiencia, y los pesos densos se transmiten desde el NVMe. Hypura ofrece diferentes modos de inferencia (residentes, de transmisión de expertos, de transmisión de FFN densos) y se adapta automáticamente a la configuración del hardware, sin necesidad de ajustes manuales. Además, proporciona una API compatible con Ollama, facilitando su integración con otras herramientas. Es importante destacar que Hypura no escribe en el SSD durante la inferencia, evitando el desgaste del almacenamiento.