Cohere ha lanzado Transcribe, un modelo de reconocimiento automático de voz (ASR) de última generación y de código abierto, disponible para descarga desde Hugging Face. El objetivo de Cohere fue crear un modelo preciso y listo para uso práctico, minimizando la tasa de error de palabra (WER). Transcribe actualmente ocupa el primer lugar en la tabla de clasificación Open ASR de Hugging Face, superando a alternativas como Whisper Large v3 y ElevenLabs Scribe v2, con una tasa de error de palabra promedio de solo 5.42%.
El modelo, basado en una arquitectura conformer-encoder-decoder, admite 14 idiomas y está diseñado para ser eficiente en términos de recursos, adecuado tanto para uso local como a través de la plataforma Model Vault de Cohere. Cohere destaca la velocidad y la calidad de transcripción de Transcribe, permitiendo convertir minutos de audio en texto en segundos. La empresa planea integrar Transcribe con su plataforma de orquestación de agentes de IA, North, para expandir sus capacidades de inteligencia de voz empresarial. Los usuarios pueden acceder a Transcribe a través de Hugging Face o a través de la API de Cohere, con opciones de implementación de producción disponibles a través de Model Vault.
