Ollama optimiza IA en Apple Silicon con MLX

Fuentes: Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog

Ollama ha anunciado una versión preliminar que optimiza significativamente el rendimiento de sus modelos de lenguaje en dispositivos Apple Silicon. La actualización, disponible desde el 30 de marzo de 2026, integra el framework de aprendizaje automático MLX de Apple, aprovechando su arquitectura de memoria unificada y los nuevos aceleradores neuronales de la GPU, especialmente en los chips M5, M5 Pro y M5 Max. Esto se traduce en una aceleración notable en el tiempo de respuesta inicial (TTFT) y en la velocidad de generación de tokens.

La nueva versión también incorpora soporte para el formato NVFP4 de NVIDIA, que permite mantener la precisión de los modelos al tiempo que reduce los requisitos de memoria y almacenamiento, acercando el rendimiento de Ollama a entornos de producción. Además, se han mejorado las capacidades de almacenamiento en caché, optimizando tareas de codificación y agentes, reduciendo el uso de memoria y mejorando la eficiencia general. Para aprovechar al máximo estas mejoras, se recomienda un Mac con más de 32 GB de memoria unificada. Ollama está trabajando en la compatibilidad con modelos futuros y facilitará la importación de modelos personalizados en el futuro.