03 Jun 2026 · Original en inglés · Artículo

MOSS-TTS Family: modelos de síntesis de voz y sonido de código abierto

Fuentes: MOSS-TTS Family: Open-Source Speech and Sound Generation Model Family

MOSS-TTS Family es una familia de modelos de síntesis de voz y sonido de código abierto desarrollada por MOSI.AI y el equipo OpenMOSS. Su objetivo es cubrir múltiples escenarios reales con alta fidelidad y expresividad, incluyendo locuciones largas estables, diálogos con múltiples hablantes, diseño de voces y personajes, efectos de sonido ambientales y síntesis en tiempo real. La familia se compone de cinco modelos principales: MOSS-TTS (modelo estrella para clonación de voz zero-shot), MOSS-TTSD (generación de diálogos expresivos y ultralargos), MOSS-VoiceGenerator (diseño de voces sin referencia de audio), MOSS-TTS-Realtime (agente conversacional de baja latencia, con un TTFB de 180 ms) y MOSS-SoundEffect (generación de efectos de sonido hasta 30 segundos a 48 kHz). La versión más reciente, MOSS-TTS-v1.5, amplía su cobertura a 31 idiomas, incluyendo cantonés, neerlandés y tailandés. Además, se ha optimizado la inferencia para permitir su ejecución en GPUs con 8 GB de VRAM, y se han implementado backends como llama.cpp, SGLang y ONNX Runtime para despliegues ligeros. La familia también incluye modelos complementarios (MossTTSDelay y MossTTSLocal) para investigación y producción. Está disponible en Hugging Face y GitHub con licencias abiertas, y se ofrecen tutoriales de ajuste fino y pipelines de inferencia completos.

Temas

desarrollo seguridad

Etiquetas

speech synthesis sound generation open source text-to-speech multilingual moss-tts moss-ttsd moss-voicegenerator moss-tts-realtime moss-soundeffect

Entidades mencionadas

MOSI.AI organization

Un mosaico es una obra artística elaborada con pequeñas piezas de piedra, cerámica, vidrio u otros materiales, de diversas formas y colores, llamadas teselas, unidas sobre un lecho aún fresco de yeso,

Ver en Wikipedia

OpenMOSS team organization

OpenMOSS Team is jointly established by Shanghai Innovation Institution (SII), Fudan University NLP Lab, and MOSI Intelligence, exploring an innovative development model centered on deep integration o

MOSS-TTS software

MOSS-TTSD software

MOSS-VoiceGenerator software

MOSS-TTS-Realtime software

MOSS-SoundEffect software

MOSS-TTS-Nano software

llama.cpp software

Se llama copla es un concurso musical dedicado a la interpretación de copla emitido en Andalucía (España) por Canal Sur Televisión, y en el resto de España y el extranjero por otras plataformas a trav

Ver en Wikipedia

Hugging Face organization