Erm es una herramienta de línea de comandos de código abierto diseñada para eliminar disfluencias como “um”, “uh” y “er” de archivos de audio de voz. Desarrollada por Doug Calobrisi y disponible en GitHub, se ejecuta completamente en local, lo que garantiza la privacidad de las grabaciones. La interfaz es simple: el comando uvx erm input.wav produce un archivo de audio limpio y una lista de cortes en JSON. A diferencia de enfoques ingenuos que solo producen recortes burdos con clics y saltos de ruido de fondo, Erm enfrenta tres problemas técnicos: las omisiones de Whisper (modelo de transcripción), los cortes que generan chasquidos y las diferencias en el ruido ambiental entre fragmentos. Para ello, utiliza el modelo faster-whisper para transcripción con marcas de tiempo, y realiza cuatro pasadas de detección: una basada en palabras conocidas (um, uh, etc.) y tres análisis directos del audio para detectar pausas rellenas, muletillas incrustadas en palabras vecinas y segmentos excesivamente largos. Los puntos de corte se refinan deslizándolos hasta zonas de silencio y alineándolos con cruces por cero de la onda, evitando clics. Luego se aplica un crossfade adaptativo que varía según la duración del corte, y se inserta un bucle de ruido ambiente original para uniformar el fondo. Además, Erm incluye un sistema de desnoisado híbrido (detección en audio original, cortes en versión desruidizada). También ofrece un subcomando de validación que verifica la integridad del archivo, la duración y la ausencia de muletillas en la nueva transcripción. Esta herramienta es especialmente útil para podcasters, editores de video, investigadores de voz y cualquier persona que necesite limpiar grabaciones de manera eficiente sin enviar datos a servidores externos.
