Un equipo de desarrolladores ha creado una implementación en C++ de los modelos de reconocimiento de voz Parakeet de Nvidia, ofreciendo una mejora significativa en la velocidad para su ejecución en dispositivos. El proyecto, alojado en GitHub, utiliza la biblioteca de tensores ligera axiom, que incluye aceleración automática de GPU Metal, eliminando la necesidad de entornos de ejecución de Python u ONNX. Las pruebas iniciales muestran una velocidad de inferencia del codificador de aproximadamente 27 milisegundos en una GPU de Apple Silicon para un audio de 10 segundos (modelo de 110 millones de parámetros), lo que representa una aceleración de 96 veces en comparación con el procesamiento por CPU.
El código permite la ejecución de varios modelos Parakeet, incluyendo variantes para transcripción offline (tdt-ctc-110m, tdt-600m), streaming (eou-120m, nemotron-600m) y diarización de oradores (Sortformer). Se proporciona un ejemplo de código para la transcripción básica, la inclusión de marcas de tiempo y la identificación de oradores. La implementación facilita la aceleración de GPU Metal y ofrece opciones de configuración para latencia y decodificación. Para utilizarlo, se requiere C++20 y la biblioteca axiom, que se incluye como submódulo. Se proporcionan scripts para convertir checkpoints de NeMo a formato safetensors, facilitando la adopción del proyecto.
