FunASR es un toolkit de código abierto para reconocimiento automático del habla (ASR) desarrollado por ModelScope, la organización de Alibaba DAMO, orientado a escenarios industriales y de producción. La herramienta se posiciona como una alternativa a OpenAI Whisper y a las API de transcripción en la nube, con un enfoque marcado en la velocidad, la privacidad al permitir el autoalojamiento y la integración con agentes de inteligencia artificial.
El repositorio agrupa varios modelos de transcripción, entre ellos SenseVoice-Small, Paraformer-Large y Fun-ASR-Nano-2512, este último basado en una arquitectura LLM que combina un codificador SenseVoice con un decodificador Qwen3-0.6B. Según los benchmarks publicados, los modelos de FunASR alcanzan 170x tiempo real en GPU y 17x en CPU, frente a las 13x de Whisper-large-v3 en GPU. En pruebas internas con 184 archivos de audio largo (192 minutos), SenseVoice-Small es 13 veces más rápido y Paraformer-Large 9 veces más rápido que Whisper-large-v3.
La librería incorpora de serie cuatro bloques que en Whisper o en servicios cloud requieren componentes adicionales: detección de actividad de voz (VAD) para segmentar el audio, reconocimiento del habla, restauración de puntuación y diarización de hablantes. A esto suma detección de emociones (alegría, tristeza, enfado) mediante emotion2vec_plus_large y soporte para más de 50 idiomas, incluyendo dialectos chinos en el caso de Fun-ASR-Nano.
La instalación es directa: pip install funasr y una llamada a AutoModel con un identificador de modelo. Para despliegue ofrece un servidor CLI (funasr-server) con endpoint compatible con la API /v1/audio/transcriptions de OpenAI, lo que permite reemplazar directamente Whisper API en pipelines existentes. Incluye además un servidor MCP para integrarse con agentes como Claude o Cursor, y soporte de vLLM para acelerar la inferencia 2-3x en GPU.
Está pensado para transcribir reuniones, llamadas, podcasts o audio industrial en tiempo real, con modo streaming vía WebSocket. Es viable en CPU, lo que reduce costes frente a despliegues cloud, y su licencia MIT permite uso comercial. Como consideraciones, los modelos multilingües generalistas suelen perder precisión frente a modelos especializados por idioma, y la integración de diarización en Fun-ASR-Nano y SenseVoice es reciente (mayo de 2026), por lo que conviene probar con audios representativos antes de migrar desde Whisper o un proveedor cloud.
