MOSS-TTS Family: modelos de síntesis de voz y sonido de código abierto

Fuentes: MOSS-TTS Family: Open-Source Speech and Sound Generation Model Family

MOSS-TTS Family es una familia de modelos de síntesis de voz y sonido de código abierto desarrollada por MOSI.AI y el equipo OpenMOSS. Su objetivo es cubrir múltiples escenarios reales con alta fidelidad y expresividad, incluyendo locuciones largas estables, diálogos con múltiples hablantes, diseño de voces y personajes, efectos de sonido ambientales y síntesis en tiempo real. La familia se compone de cinco modelos principales: MOSS-TTS (modelo estrella para clonación de voz zero-shot), MOSS-TTSD (generación de diálogos expresivos y ultralargos), MOSS-VoiceGenerator (diseño de voces sin referencia de audio), MOSS-TTS-Realtime (agente conversacional de baja latencia, con un TTFB de 180 ms) y MOSS-SoundEffect (generación de efectos de sonido hasta 30 segundos a 48 kHz). La versión más reciente, MOSS-TTS-v1.5, amplía su cobertura a 31 idiomas, incluyendo cantonés, neerlandés y tailandés. Además, se ha optimizado la inferencia para permitir su ejecución en GPUs con 8 GB de VRAM, y se han implementado backends como llama.cpp, SGLang y ONNX Runtime para despliegues ligeros. La familia también incluye modelos complementarios (MossTTSDelay y MossTTSLocal) para investigación y producción. Está disponible en Hugging Face y GitHub con licencias abiertas, y se ofrecen tutoriales de ajuste fino y pipelines de inferencia completos.