La idea de hace 90 años detrás de los modelos JEPA: análisis de correlación canónica

Fuentes: The 90-year-old idea behind JEPA models: Canonical Correlation Analysis (CCA)

El análisis de correlación canónica (CCA), introducido por Harold Hotelling en 1936, es la raíz conceptual de los modelos JEPA (Joint Embedding Predictive Architecture), según explica Shon Czinner en su blog. CCA resuelve un problema clásico: encontrar la señal común entre dos matrices de datos maximizando la traza de la matriz de correlación cruzada, bajo restricciones de blanqueo (variance unitaria y covarianza cero). En términos modernos, su función objetivo equivale a minimizar el error cuadrático medio entre las representaciones de ambas matrices.

JEPA, popularizada por Yann LeCun, comparte esa misma función objetivo, pero introduce dos diferencias clave: incorpora no linealidad mediante codificadores y predictores neuronales, y elimina las restricciones de blanqueo. Esa ausencia provoca el llamado colapso representacional, que se puede corregir con técnicas como SIGReg, propuesta por Balestriero y LeCun, la cual aproxima la distribución de los embeddings a una gaussiana isotrópica.

El artículo sitúa la discusión en el debate entre Jürgen Schmidhuber y LeCun sobre la autoría intelectual de JEPA. Schmidhuber defiende que su sistema de Maximización de la Predictibilidad de 1992 anticipó la idea; LeCun responde que las ideas son abundantes y lo difícil es hacerlas funcionar a escala. Czinner coincide con Schmidhuber en que la trazabilidad de citas es esencial, pero concluye que JEPA y la Maximización de la Predictibilidad son mejoras arquitectónicas no lineales sobre CCA. También menciona que variantes profundas de CCA, como Deep CCA, podrían extenderse a más de dos vistas de los datos, una vía de futuro para los JEPA.