IA multimodal en Mac: nueva herramienta facilita el ajuste

Fuentes: Toolkit Enables Multimodal AI Fine-Tuning on Apple Silicon

Un nuevo toolkit llamado 'gemma-tuner-multimodal' permite a los usuarios afinar modelos Gemma de Google para tareas de inteligencia artificial multimodal (texto, imágenes y audio) directamente en Macs con Apple Silicon. La herramienta, desarrollada por Mattmireles y disponible en GitHub, elimina la necesidad de costosas GPUs NVIDIA o la transferencia de grandes cantidades de datos a un ordenador portátil. Ofrece soporte para el ajuste fino de Gemma con datos de texto, imágenes y audio, incluyendo la capacidad de procesar datos que no caben en la memoria RAM del Mac mediante streaming desde servicios en la nube como Google Cloud Storage (GCS) o BigQuery. Esto abre la puerta a aplicaciones como la adaptación de modelos a jerga específica (por ejemplo, en dictados médicos o grabaciones de centros de llamadas), la comprensión de documentos y pantallas, y la creación de asistentes multimodales. El toolkit utiliza Hugging Face Gemma checkpoints y PEFT LoRA, y se destaca por ser la única solución nativa para Apple Silicon que admite el ajuste fino de modelos con audio. La herramienta facilita la creación de pipelines privados y en dispositivo, donde los datos y los pesos del modelo nunca abandonan el dispositivo.