Funciones núcleo en machine learning: una guía visual con Gaussian Processes

Fuentes: Beautiful Kernel Functions and How to See Them
Imagen generada por IA con el prompt: Abstract mathematical visualization: smooth colored curves overlaid on a soft dark background, with a small heatmap grid in blue-orange tones suggesting kernel covariance patterns. Minimalist editorial style.
Imagen generada con IA

Las funciones núcleo (kernel functions) son herramientas matemáticas fundamentales en aprendizaje automático que permiten analizar relaciones complejas y no lineales en los datos sin calcular explícitamente coordenadas en espacios de alta dimensión. En el contexto de los procesos gaussianos (Gaussian Processes, GP), el núcleo es el encargado de calcular la covarianza entre puntos, es decir, cuánto influye un dato sobre otro, y de definir la forma de la distribución de funciones que el modelo ajusta a partir de observaciones.

El artículo parte de una analogía sencilla: una máquina imaginaria que entrega oro a cambio de queso, cuya relación desconocida se aproxima mediante observaciones. Esa misma lógica es la base del modelado por GP: un GP es una distribución sobre funciones (infinitas conjeturas) caracterizada por su media y su covarianza. A medida que se incorporan más datos, las funciones se ajustan y la incertidumbre (medida por la covarianza del núcleo) disminuye o se concentra, según lo coherentes que sean las conjeturas.

La guía repasa los núcleos más utilizados con visualizaciones de muestras 1D del prior y mapas de calor de covarianza. El núcleo lineal asume una tendencia recta y mide la similitud mediante el producto escalar. El núcleo periódico (Exp-Sine-Squared) es útil para datos cíclicos, como la temperatura anual de una ciudad. Los núcleos pueden sumarse o multiplicarse para formar compuestos: la suma permite explicar los datos como suma de patrones; la multiplicación exige que todos los patrones se cumplan a la vez.

También se detallan el núcleo de base radial (RBF), el más usado y valor por defecto en SVM, que es estacionario y mide la similitud en función de la distancia, escalando de 0 a 1. Su variante, el núcleo racional cuadrático, se expresa como una suma infinita de RBF con distintas escalas de longitud, capturando variaciones a múltiples resoluciones. Por último, el núcleo de Matérn generaliza el RBF mediante un parámetro de suavidad ν: valores pequeños de ν producen funciones abruptas y sensibles, mientras que valores mayores generan curvas más suaves, adaptándose a datos reales que rara vez son perfectamente lisos.