OpenBMB ha lanzado VoxCPM2, la nueva versión de su sistema de síntesis de voz (TTS) que prescinde de tokenización. Se trata de un modelo de 2 000 millones de parámetros entrenado con más de dos millones de horas de datos en 30 idiomas. La herramienta permite generar voz directamente a partir de texto sin necesidad de etiquetas de idioma, diseñar voces nuevas mediante descripciones en lenguaje natural (sin audio de referencia) y clonar cualquier voz a partir de un breve fragmento con control opcional de estilo. La salida alcanza calidad de estudio a 48 kHz gracias a un codificador-decodificador asimétrico (AudioVAE V2). VoxCPM2 funciona en tiempo real con un factor de tiempo real (RTF) de aproximadamente 0,3 en una NVIDIA RTX 4090, y puede acelerarse mediante Nano-vLLM o vLLM-Omni. El proyecto se publica bajo licencia Apache 2.0, lo que permite uso comercial. Incluye soporte para streaming, interfaz de línea de comandos y una API compatible con OpenAI. La empresa ha puesto a disposición los pesos del modelo en Hugging Face y la documentación completa en su web.
