FunASR: toolkit industrial de reconocimiento de voz 170 veces más rápido que Whisper

Fuentes: FunASR: industrial open-source speech recognition, 170x faster than Whisper
Imagen generada por IA con el prompt: Abstract digital waveform visualization in blue and green neon glow with multiple colored speaker markers floating above, dark background, modern tech aesthetic
Imagen generada con IA

FunASR es un toolkit de código abierto para reconocimiento automático del habla (ASR) desarrollado por ModelScope, la organización de Alibaba DAMO, orientado a escenarios industriales y de producción. La herramienta se posiciona como una alternativa a OpenAI Whisper y a las API de transcripción en la nube, con un enfoque marcado en la velocidad, la privacidad al permitir el autoalojamiento y la integración con agentes de inteligencia artificial.

El repositorio agrupa varios modelos de transcripción, entre ellos SenseVoice-Small, Paraformer-Large y Fun-ASR-Nano-2512, este último basado en una arquitectura LLM que combina un codificador SenseVoice con un decodificador Qwen3-0.6B. Según los benchmarks publicados, los modelos de FunASR alcanzan 170x tiempo real en GPU y 17x en CPU, frente a las 13x de Whisper-large-v3 en GPU. En pruebas internas con 184 archivos de audio largo (192 minutos), SenseVoice-Small es 13 veces más rápido y Paraformer-Large 9 veces más rápido que Whisper-large-v3.

La librería incorpora de serie cuatro bloques que en Whisper o en servicios cloud requieren componentes adicionales: detección de actividad de voz (VAD) para segmentar el audio, reconocimiento del habla, restauración de puntuación y diarización de hablantes. A esto suma detección de emociones (alegría, tristeza, enfado) mediante emotion2vec_plus_large y soporte para más de 50 idiomas, incluyendo dialectos chinos en el caso de Fun-ASR-Nano.

La instalación es directa: pip install funasr y una llamada a AutoModel con un identificador de modelo. Para despliegue ofrece un servidor CLI (funasr-server) con endpoint compatible con la API /v1/audio/transcriptions de OpenAI, lo que permite reemplazar directamente Whisper API en pipelines existentes. Incluye además un servidor MCP para integrarse con agentes como Claude o Cursor, y soporte de vLLM para acelerar la inferencia 2-3x en GPU.

Está pensado para transcribir reuniones, llamadas, podcasts o audio industrial en tiempo real, con modo streaming vía WebSocket. Es viable en CPU, lo que reduce costes frente a despliegues cloud, y su licencia MIT permite uso comercial. Como consideraciones, los modelos multilingües generalistas suelen perder precisión frente a modelos especializados por idioma, y la integración de diarización en Fun-ASR-Nano y SenseVoice es reciente (mayo de 2026), por lo que conviene probar con audios representativos antes de migrar desde Whisper o un proveedor cloud.