Divergencia KL: guía para entender esta métrica clave

Fuentes: PERFECTLY NORMAL

La divergencia KL (Kullback-Leibler) es una herramienta fundamental en teoría de la información y aprendizaje automático, pero su funcionamiento puede ser confuso debido a propiedades inusuales como su falta de simetría. Este artículo desglosa la divergencia KL a través de seis (y media) intuiciones para facilitar su comprensión.

¿Qué es y para qué sirve? La divergencia KL no es una simple distancia; mide la diferencia entre dos distribuciones de probabilidad. En esencia, cuantifica cuánta información se pierde cuando se utiliza una distribución (aproximación) para representar otra (verdadera). Cuanto mayor sea la divergencia KL, más diferente es la distribución aproximada de la verdadera, y más 'sorpresa' o error se espera al usar la aproximación.

¿Cómo funciona? La primera intuición es la de la 'sorpresa esperada'. Imagina que tienes una distribución real de eventos y crees erróneamente que otra distribución es la correcta. La divergencia KL te dice cuánta más sorpresa esperarías al observar los eventos reales bajo tu creencia incorrecta. Esto se conecta con las pruebas de hipótesis: la divergencia KL puede interpretarse como la cantidad de evidencia que una observación proporciona a favor de una hipótesis sobre otra. También está ligada a la estimación de máxima verosimilitud (MLE): minimizar la divergencia KL entre la distribución empírica de los datos y un modelo estadístico es equivalente a encontrar el MLE. Otro ejemplo es la codificación de datos: la divergencia KL representa la cantidad de bits que se desperdician al usar un código de compresión optimizado para una distribución incorrecta. Finalmente, se puede entender como una medida de cuánto se desvía un modelo de la distribución real, explicando su asimetría.

Aplicaciones: La divergencia KL tiene aplicaciones en diversos campos. En aprendizaje automático, se utiliza para comparar modelos, regularizar algoritmos y medir la diferencia entre distribuciones de probabilidad en redes neuronales. En teoría de la información, es crucial para la compresión de datos y la codificación. En finanzas, podría usarse para modelar la diferencia entre la distribución real de retornos de activos y la distribución esperada por un inversor. Un científico de datos podría usarla para evaluar la calidad de un modelo de recomendación comparando la distribución de las preferencias del usuario con la distribución predicha por el modelo.

Consideraciones: La divergencia KL no es simétrica (KL(P||Q) ≠ KL(Q||P)). Esto significa que el orden de las distribuciones importa. Además, puede ser infinita si una distribución asigna probabilidad cero a un evento que la otra distribución asigna probabilidad positiva. Existen alternativas como la distancia Jensen-Shannon, que es simétrica y acotada, pero puede no capturar la misma información que la divergencia KL.