02 Jun 2026 · Original en inglés · Artículo

La transformada Q constante, el análisis de audio que imita la percepción humana

Fuentes: The Constant-Q Transform: Audio Analysis that Mirrors Human Pitch Perception

Imagen generada por IA con el prompt: Abstract logarithmic frequency spectrum visualization with glowing bars of varying heights, blue-to-magenta gradient on dark background, no text or logos — Imagen generada con IA

La transformada de Q constante (CQT, por sus siglas en inglés) es una herramienta de análisis de frecuencias diseñada para descomponer señales de audio siguiendo una escala logarítmica que coincide con la percepción humana del tono musical. A diferencia de la transformada rápida de Fourier (FFT), que distribuye las frecuencias de forma lineal, la CQT asigna el mismo número de bins a cada octava —típicamente 12, 24, 36 o más— replicando la estructura de la escala cromática occidental.

El término 'Q constante' se refiere a que el cociente entre la frecuencia central de cada bin y su anchura permanece fijo. Esto tiene una consecuencia práctica importante: las notas graves se analizan con ventanas temporales largas, lo que ofrece alta resolución frecuencial, mientras que las notas agudas se procesan con ventanas cortas, optimizando la resolución temporal. Esta adaptabilidad refleja la naturaleza del oído humano, que distingue mejor los tonos graves y tolera mayor imprecisión en los agudos.

El cálculo de la longitud de la ventana para cada bin k se realiza mediante la fórmula Nk = Q · fs / fk, donde fs es la frecuencia de muestreo y fk la frecuencia central del bin. El procedimiento básico consiste en generar una exponencial compleja con ventana para cada frecuencia, multiplicarla por la señal y sumar el resultado, repitiendo el proceso para los K bins en cada ventana temporal. Aunque la implementación directa es costosa (orden O(KN) por fotograma), en la práctica se usan algoritmos eficientes basados en la FFT mediante núcleos espectrales o diezmado recursivo.

Una de las aplicaciones más extendidas de la CQT es la obtención del cromagrama, una representación de 12 dimensiones del contenido armónico que se obtiene al plegar los bins log-frecuenciales de varias octavas. El cromagrama resulta especialmente útil en sistemas de reconocimiento de acordes, detección de tonalidad y análisis armónico.

Entre las principales áreas de uso se encuentran la transcripción automática de música, la extracción de melodías, las aplicaciones de afinación, la síntesis de audio mediante vocoders de fase, y la alimentación de modelos de aprendizaje profundo en tareas como clasificación musical, separación de fuentes y modelos generativos. La transformada de Q constante se ha convertido así en un pilar del campo conocido como recuperación de información musical y del procesamiento inteligente de audio.

Etiquetas

constant-q transform music information retrieval signal processing audio analysis chromagram pitch detection fast fourier transform spectrogram audio synthesis phase vocoder

Entidades mencionadas

Constant-Q Transform protocol_standard

Fast Fourier Transform protocol_standard

Western chromatic scale protocol_standard

chromagram protocol_standard