SwiftLM: LLMs nativos y rápidos en Apple Silicon

Fuentes: SwiftLM brings native LLM inference to Apple Silicon with OpenAI compatibility

Un equipo de desarrolladores ha lanzado SwiftLM, un servidor de inferencia nativo para dispositivos Apple Silicon que ofrece compatibilidad con la API de OpenAI. Esta herramienta, de código abierto, elimina la necesidad de un entorno de ejecución de Python y el Global Interpreter Lock (GIL), lo que resulta en un rendimiento significativamente más rápido en hardware Apple Silicon. SwiftLM permite ejecutar modelos de lenguaje grandes (LLM) como Qwen3.5-122B-A10B-4bit directamente en dispositivos como MacBooks y, próximamente, iPhones y iPads. La clave de su eficiencia reside en la integración de TurboQuantization, una técnica de compresión de caché KV que reduce el uso de memoria hasta en un 3.5x con una pérdida de precisión mínima. Además, incorpora 'SSD Expert Streaming' para manejar modelos extremadamente grandes, evitando problemas de memoria. SwiftLM también incluye una aplicación móvil para iOS que facilita la descarga y ejecución de modelos MLX directamente desde Hugging Face. El proyecto se basa en el trabajo de la comunidad Apple MLX y busca proporcionar una alternativa rápida y eficiente para la inferencia de LLM en dispositivos Apple.