25 May 2026 · Original en inglés · Artículo

Divergencia Jensen-Shannon: midiendo similitud de datos

Fuentes: Jensen–Shannon divergence - Wikipedia

La Divergencia de Jensen-Shannon (JSD) es una herramienta matemática que nos permite medir qué tan similares son dos distribuciones de probabilidad. Imagina que tienes dos conjuntos de datos que representan la probabilidad de diferentes eventos (por ejemplo, la probabilidad de que llueva en diferentes ciudades, o la distribución de palabras en dos documentos). La JSD te da una puntuación que indica qué tan cerca están esos dos conjuntos de datos en términos de probabilidad. Es una mejora sobre otra medida similar, la Divergencia de Kullback-Leibler (KL), porque la JSD siempre produce un valor finito y es simétrica (es decir, la distancia de A a B es la misma que de B a A), algo que la KL no garantiza.

¿Cómo funciona? La JSD se basa en la idea de calcular la divergencia de cada distribución con respecto a una distribución promedio (una mezcla de las dos originales). Matemáticamente, implica calcular la divergencia KL de cada distribución con respecto a esta media, y luego promediar esos dos valores. Esto suaviza la divergencia y asegura que siempre tenga un valor definido, incluso cuando las distribuciones son muy diferentes.

¿Para qué sirve? La JSD tiene muchas aplicaciones. En bioinformática, se usa para comparar genomas. En ciencias sociales, puede ayudar a entender cómo se distribuyen opiniones o comportamientos en diferentes grupos. En el análisis de texto, se puede usar para comparar la distribución de palabras en dos documentos y determinar su similitud temática. También tiene una versión cuántica (Quantum Jensen-Shannon Divergence) que se utiliza en la teoría de la información cuántica.

Consideraciones: Aunque la JSD es una herramienta poderosa, tiene limitaciones. Al igual que otras medidas de divergencia, es sensible a la forma en que se representan los datos. Además, la interpretación del valor de la JSD depende del contexto específico. Un valor bajo indica alta similitud, pero el umbral para considerar dos distribuciones “similares” puede variar. Finalmente, existen alternativas a la JSD, como la distancia de Wasserstein, que pueden ser más adecuadas para ciertos tipos de datos o aplicaciones.

Etiquetas

probabilidad estadística bioinformática análisis de datos divergencia kl teoría de la información distribuciones de probabilidad ciencia de datos

Entidades mencionadas

Johan Jensen person

Johan Ludwig William Valdemar Jensen, más conocido como Johan Jensen, fue un matemático e ingeniero danés. Presidió la Sociedad Matemática Danesa desde 1892 a 1903.

Ver en Wikipedia

Claude Shannon person

Claude Elwood Shannon fue un matemático, ingeniero eléctrico y criptógrafo estadounidense recordado como «el padre de la teoría de la información».

Ver en Wikipedia

Kullback–Leibler divergence software

σ-algebra software

Shannon entropy software

von Neumann entropy software

density matrices software

quantum information organization

In March 2022, Alice & Bob announced a major breakthrough in quantum error correction by demonstrating macroscopic bit-flip times of up to two minutes, significantly improving upon previous record