Start-up desafía a OpenAI con IA de audio revolucionaria

Fuentes: Arming the rebels with GPUs: Gradium, Kyutai, and Audio AI | Amplify Partners

Una startup llamada Gradium, surgida del laboratorio de investigación sin fines de lucro Kyutai, está revolucionando el desarrollo de modelos de audio con IA, desafiando a gigantes como OpenAI. En verano de 2024, Kyutai demostró el primer modelo de conversación de audio en tiempo real (Moshi) capaz de responder instantáneamente, cambiar de voz e incluso recitar poesía, superando a las soluciones de OpenAI y xAI en velocidad y funcionalidad. Lo más sorprendente es que este avance fue logrado por un equipo de solo cuatro investigadores en seis meses, con recursos limitados y utilizando código abierto que puede funcionar en dispositivos móviles.

Esta situación resalta una tendencia importante: los modelos de audio con IA están siendo desarrollados por startups ágiles y especializadas, en lugar de los grandes laboratorios. Esto se debe a que la investigación en audio ha sido históricamente subestimada y subfinanciada, y a que los equipos pequeños y enfocados pueden superar a los grandes laboratorios debido a su capacidad para innovar rápidamente y evitar la burocracia. El artículo profundiza en la historia de la IA de audio, las dinámicas de los laboratorios grandes y pequeños, y los desafíos específicos del entrenamiento de modelos de voz, abriendo una nueva vía en el panorama de la inteligencia artificial generativa.