KittenML ha lanzado la versión 0.8 de Kitten TTS, una biblioteca de texto a voz (TTS) de código abierto y ligera, diseñada para funcionar eficientemente en CPU sin necesidad de una GPU. Los modelos disponibles varían en tamaño desde 15 millones hasta 80 millones de parámetros (25-80 MB en disco), ofreciendo una alternativa accesible para la síntesis de voz de alta calidad. La biblioteca, construida sobre ONNX, incluye ocho voces predefinidas (Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki y Leo) y permite ajustar la velocidad del habla.
Esta versión en 'developer preview' se presenta como una solución ideal para despliegues en dispositivos de borde y aplicaciones donde los recursos computacionales son limitados. KittenML ofrece soporte comercial para integración, desarrollo de voces personalizadas y licencias empresariales. La instalación es sencilla a través de pip, y se proporciona un ejemplo básico para generar audio. El proyecto está licenciado bajo la Apache License 2.0 y cuenta con una comunidad activa en Discord y GitHub. En el futuro, KittenML planea lanzar un motor de inferencia optimizado, un SDK móvil, modelos TTS de mayor calidad, soporte multilingüe y un sistema de reconocimiento de voz (ASR).
