Un equipo de desarrolladores ha creado un nuevo motor de inferencia de alto rendimiento para modelos de lenguaje grandes (LLM) que permite ejecutar el modelo Llama 70B en una sola tarjeta gráfica RTX 3090. El motor, basado en C++/CUDA, utiliza una técnica de streaming de capas del modelo a través de la memoria de la GPU mediante PCIe, e incluso incorpora una opción de acceso directo a NVMe para evitar el cuello de botella de la CPU. Esto se logra a través de un sistema de caché adaptativo de tres niveles que prioriza la residencia de las capas en la VRAM, seguido de la RAM anclada y, finalmente, el acceso a NVMe/mmap como último recurso. Las pruebas demuestran una aceleración de hasta 33 veces en comparación con los métodos tradicionales, aunque el rendimiento está limitado por el ancho de banda de PCIe. El motor es compatible con varios formatos de cuantización de modelos GGUF y arquitecturas de Llama, y se ejecuta bajo Linux. El proyecto, de código abierto, busca optimizar el rendimiento de los LLM en hardware de consumo, abriendo la puerta a ejecutar modelos complejos localmente sin necesidad de una infraestructura costosa.
