Desarrolladores han logrado ejecutar un modelo de reconocimiento de voz de Mistral AI, Voxtral Mini 4B Realtime, directamente en el navegador web, eliminando la necesidad de un servidor externo. Esta hazaña, impulsada por Rust y el framework Burn, permite la transcripción de audio en tiempo real utilizando WebGPU y WASM. La versión cuantizada Q4 GGUF, de aproximadamente 2.5 GB, puede ejecutarse completamente en una pestaña del navegador, lo que facilita su acceso y uso. Para usuarios con recursos limitados, existe una demostración alojada en Hugging Face Spaces. El proceso de configuración local implica descargar los pesos del modelo (alrededor de 9 GB) y utilizar herramientas como cargo y wasm-pack. El desarrollo enfrentó desafíos técnicos, como limitaciones de memoria y la necesidad de optimizar el rendimiento para funcionar en un entorno de navegador. El proyecto incluye mejoras en el manejo del relleno de audio para evitar errores de transcripción y se están planificando pruebas.
