27 Feb 2026 · Original en inglés · Resumen IA

C++ acelera reconocimiento de voz con modelo Parakeet

Fuentes: New C++ Implementation of Nvidia's Parakeet Model Offers Significant Speed Boost for On-Device Speech Recognition

Un equipo de desarrolladores ha creado una implementación en C++ de los modelos de reconocimiento de voz Parakeet de Nvidia, ofreciendo una mejora significativa en la velocidad para su ejecución en dispositivos. El proyecto, alojado en GitHub, utiliza la biblioteca de tensores ligera axiom, que incluye aceleración automática de GPU Metal, eliminando la necesidad de entornos de ejecución de Python u ONNX. Las pruebas iniciales muestran una velocidad de inferencia del codificador de aproximadamente 27 milisegundos en una GPU de Apple Silicon para un audio de 10 segundos (modelo de 110 millones de parámetros), lo que representa una aceleración de 96 veces en comparación con el procesamiento por CPU.

El código permite la ejecución de varios modelos Parakeet, incluyendo variantes para transcripción offline (tdt-ctc-110m, tdt-600m), streaming (eou-120m, nemotron-600m) y diarización de oradores (Sortformer). Se proporciona un ejemplo de código para la transcripción básica, la inclusión de marcas de tiempo y la identificación de oradores. La implementación facilita la aceleración de GPU Metal y ofrece opciones de configuración para latencia y decodificación. Para utilizarlo, se requiere C++20 y la biblioteca axiom, que se incluye como submódulo. Se proporcionan scripts para convertir checkpoints de NeMo a formato safetensors, facilitando la adopción del proyecto.

Temas

empresas

Etiquetas

nvidia parakeet axiom c++ reconocimiento de voz

Entidades mencionadas

Parakeet creative_work

Metal protocol_standard

RNNT software

Sortformer software

model.safetensors software

vocab.txt software

TDT software

CTC software

Nemotron software

pytorch software

WAV software

UTF-8 protocol_standard

AXIOM software

English location

GPU hardware

Apple Silicon hardware

C++ software

Nvidia organization

NVIDIA Corporation es una empresa tecnológica de software y fabless que desarrolla unidades de procesamientos gráficos (GPU), interfaz de programación de aplicaciones (API) para ciencia de datos y com

Ver en Wikipedia