Un desarrollador ha presentado "Parlor", una innovadora herramienta de inteligencia artificial que permite conversaciones de voz y visión en tiempo real directamente en MacBooks, sin necesidad de conexión a internet. El proyecto, cuyo código está disponible en GitHub, utiliza el modelo de lenguaje Gemma 4 E2B de Google para comprender el habla y la visión, y Kokoro para la síntesis de voz. Parlor funciona descargando los modelos (aproximadamente 2.6 GB) y procesando la información localmente, lo que elimina los costos de servidor y mejora la privacidad.
Esta tecnología, aún en fase de investigación y con algunas imperfecciones, representa un avance significativo en la accesibilidad de la IA, especialmente para el aprendizaje de idiomas. El desarrollador, Fikrikarim, se inspiró en su trabajo previo con un asistente de voz gratuito alojado en su propio servidor y busca explorar modelos de sostenibilidad para este tipo de iniciativas. La demostración inicial requiere un MacBook con chip Apple Silicon (M3 Pro en este caso) o un sistema Linux con GPU compatible, y aproximadamente 3 GB de RAM libre. El objetivo final es llevar esta capacidad a dispositivos móviles, permitiendo interacciones con el mundo real a través de la cámara y el micrófono.
