03 Jun 2026 · Original en inglés · Artículo

FunASR: toolkit industrial de reconocimiento de voz 170 veces más rápido que Whisper

Fuentes: FunASR: industrial open-source speech recognition, 170x faster than Whisper

Imagen generada por IA con el prompt: Abstract digital waveform visualization in blue and green neon glow with multiple colored speaker markers floating above, dark background, modern tech aesthetic — Imagen generada con IA

FunASR es un toolkit de código abierto para reconocimiento automático del habla (ASR) desarrollado por ModelScope, la organización de Alibaba DAMO, orientado a escenarios industriales y de producción. La herramienta se posiciona como una alternativa a OpenAI Whisper y a las API de transcripción en la nube, con un enfoque marcado en la velocidad, la privacidad al permitir el autoalojamiento y la integración con agentes de inteligencia artificial.

El repositorio agrupa varios modelos de transcripción, entre ellos SenseVoice-Small, Paraformer-Large y Fun-ASR-Nano-2512, este último basado en una arquitectura LLM que combina un codificador SenseVoice con un decodificador Qwen3-0.6B. Según los benchmarks publicados, los modelos de FunASR alcanzan 170x tiempo real en GPU y 17x en CPU, frente a las 13x de Whisper-large-v3 en GPU. En pruebas internas con 184 archivos de audio largo (192 minutos), SenseVoice-Small es 13 veces más rápido y Paraformer-Large 9 veces más rápido que Whisper-large-v3.

La librería incorpora de serie cuatro bloques que en Whisper o en servicios cloud requieren componentes adicionales: detección de actividad de voz (VAD) para segmentar el audio, reconocimiento del habla, restauración de puntuación y diarización de hablantes. A esto suma detección de emociones (alegría, tristeza, enfado) mediante emotion2vec_plus_large y soporte para más de 50 idiomas, incluyendo dialectos chinos en el caso de Fun-ASR-Nano.

La instalación es directa: pip install funasr y una llamada a AutoModel con un identificador de modelo. Para despliegue ofrece un servidor CLI (funasr-server) con endpoint compatible con la API /v1/audio/transcriptions de OpenAI, lo que permite reemplazar directamente Whisper API en pipelines existentes. Incluye además un servidor MCP para integrarse con agentes como Claude o Cursor, y soporte de vLLM para acelerar la inferencia 2-3x en GPU.

Está pensado para transcribir reuniones, llamadas, podcasts o audio industrial en tiempo real, con modo streaming vía WebSocket. Es viable en CPU, lo que reduce costes frente a despliegues cloud, y su licencia MIT permite uso comercial. Como consideraciones, los modelos multilingües generalistas suelen perder precisión frente a modelos especializados por idioma, y la integración de diarización en Fun-ASR-Nano y SenseVoice es reciente (mayo de 2026), por lo que conviene probar con audios representativos antes de migrar desde Whisper o un proveedor cloud.

Temas

desarrollo seguridad

Etiquetas

speech recognition asr open source modelscope alibaba damo python speaker diarization vllm qwen3 whisper alternative

Entidades mencionadas

FunASR software

ModelScope organization

El heliocentrismo es un modelo astronómico según el cual la Tierra y los planetas se mueven alrededor del Sol relativamente estacionario y que está en el centro del universo. Históricamente, el helioc

Ver en Wikipedia

Alibaba DAMO organization

阿里巴巴达摩院（Alibaba DAMO Academy for Discovery, Adventure, Momentum and Outlook）是一家致力于探索科技未知，以人类愿景为驱动力的，立足于基础科学、创新性技术和应用技术的研究院。

Whisper software

SenseVoice software

Paraformer software

Fun-ASR-Nano software

Qwen3 software

GLM-ASR-Nano software

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

vLLM software

emotion2vec software

pytorch software

PyTorch es una biblioteca de aprendizaje automático de código abierto basada en la biblioteca de Torch, utilizado para aplicaciones como visión artificial y procesamiento de lenguajes naturales, princ

Ver en Wikipedia

Claude software

Hugging Face organization

GitHub organization

GitHub es una plataforma en línea utilizada para alojar y gestionar proyectos de software, incluyendo el código fuente de Secluso, la startup de privacidad que ha lanzado un sistema de seguridad para

Ver en Wikipedia