Desmitificando la estimación por contraste de ruido: NCE, InfoNCE y la función de partición

Fuentes: Demystifying Noise Contrastive Estimation

Este documento técnico explica en profundidad dos métodos de aprendizaje automático: la estimación por contraste de ruido (Noise Contrastive Estimation, NCE) y su evolución InfoNCE. Ambos sirven para estimar los parámetros de una distribución estadística cuando el número de clases posibles es muy grande y la función de partición resulta intratable, como ocurre en el modelado de lenguaje.

El texto distingue dos variantes de NCE. La primera, llamada Local NCE (o NCE binario), reformula el aprendizaje como una clasificación binaria que distingue datos reales de muestras de ruido, apoyándose en una hipótesis de autonormalización que evita calcular la suma sobre todas las clases. La segunda, Global NCE (o NCE de ranking), plantea un problema de clasificación categórica en el que el modelo debe identificar la muestra real entre varios candidatos ruidosos. Se demuestra que maximizar el objetivo de Global NCE equivale a aproximar la verosimilitud condicional y que, mediante muestreo por importancia, se puede estimar directamente la función de partición.

InfoNCE se presenta como un caso particular de Global NCE cuyo objetivo es maximizar la información mutua entre dos variables, lo que lo convierte en la base de métodos de aprendizaje contrastivo como CLIP, para asociación texto-imagen, y SimCLR, para visión por computador. También se documentan aplicaciones en reconocimiento del habla, aprendizaje por refuerzo y redes generativas adversariales.

El trabajo finaliza con recomendaciones prácticas: cuándo conviene usar muestreo negativo (como en word2vec), estimación de la función de partición o InfoNCE, en función del problema y de los recursos computacionales disponibles.