Hume AI ha abierto el código de TADA, una innovadora tecnología que busca revolucionar la generación de voz por inteligencia artificial. TADA resuelve un problema fundamental en los sistemas actuales de texto a voz (TTS) basados en modelos de lenguaje grandes (LLM): la incompatibilidad entre la representación del texto y el audio, que limita la velocidad, la calidad y la fiabilidad. La nueva técnica sincroniza el texto y el habla de forma uno a uno, permitiendo una generación de voz significativamente más rápida (más de 5 veces más rápida que los sistemas similares), con una calidad de voz competitiva y prácticamente nula alucinación de contenido.
TADA es ligero y apto para su despliegue en dispositivos móviles, lo que abre la puerta a aplicaciones como interfaces de voz de baja latencia y narración de larga duración. Las evaluaciones iniciales muestran una alta similitud con el hablante y una naturalidad notable. Aunque existen limitaciones, como una ligera deriva del hablante en generaciones muy largas, Hume AI invita a la comunidad a construir sobre este trabajo, ofreciendo modelos pre-entrenados en inglés y otros siete idiomas, junto con el código fuente y demostraciones accesibles en plataformas como Hugging Face y GitHub.
