Adam Abelson presentó SaySynth en la conferencia composition.codes el 21 de diciembre de 2025, un sintetizador construido sobre el marco de texto a voz de macOS conocido popularmente como el comando 'say'. El proyecto parte de un hallazgo: el sistema TTS de Apple incluía un DSL oculto y de bajo nivel para controlar la prosodia a nivel de fonema, documentado en un archivo ya deprecado del portal de desarrolladores de Apple. Especificando el tono por fonema, Abelson lo reconvirtió en un sintetizador musical mediante un secuenciador en YAML que lanza múltiples subprocesos 'say' en paralelo para producir acordes.
El artículo combina el lanzamiento de la herramienta con un recorrido histórico por las máquinas parlantes. Abelson distingue cuatro tipos: mecánicas (con fuelles y lengüetas, como la de Wolfgang von Kempelen de 1773), basadas en formantes y reglas (osciladores y filtros que modelan el tracto vocal), concatenativas por muestras (de las muñecas parlantes de Edison a MUSA en 1978, con cerca de 2.000 transiciones de fonemas grabados) y generativas neuronales, el paradigma actual.
El texto repasa hitos como Euphonia de Joseph Faber (1845), con dieciséis teclas que generaban fonemas distintos, y el VODER presentado en la Feria Mundial de 1939, cuya inteligibilidad dependía por completo de operadoras conocidas como 'Voderettes' cuyo papel quedó borrado de la historia. S.A.M. (1982) fue el primer sintetizador de voz comercial, disponible para Commodore 64, Atari y Apple II, y su tecnología acabó integrándose en Macintalk de Apple, presentado en 1984 con una demostración de Steve Jobs. Mac OS X Cheetah (2001) introdujo la interfaz de línea de comandos 'say'.
Abelson identifica dos patrones recurrentes: las demostraciones mediante canto (de HAL 9000 cantando 'Daisy Bell' a Siri) y la feminización sistemática de estas máquinas para hacerlas más accesibles, invisibilizando el trabajo humano que las sostiene. El propio SaySynth explota una propiedad emergente: al no poder sincronizar los subprocesos con precisión, las voces derivan en fase, generando resultados 'más orgánicos y humanos de lo que tendrían derecho a ser'.
