Aprendizaje automático: cómo las máquinas aprenden

Fuentes: A Visual Introduction to Machine Learning

Este artículo introduce de manera visual y accesible el concepto de Aprendizaje Automático (AA). En esencia, el AA permite a las computadoras identificar patrones en datos para realizar predicciones precisas. El ejemplo concreto utilizado es la distinción entre casas ubicadas en Nueva York y San Francisco, basándose en características como la altitud y el precio por pie cuadrado.

Inicialmente, se intenta establecer una regla simple (una altitud superior a 240 pies indica una casa en San Francisco). Sin embargo, esta regla es demasiado simplista y se necesita más información para considerar otros factores como el precio por pie cuadrado, especialmente para apartamentos en Nueva York. Las características utilizadas para la clasificación se denominan 'features' o 'variables'.

La clave del AA reside en encontrar estas 'fronteras' o límites que separan los datos en categorías. Esto se logra mediante algoritmos como los 'árboles de decisión'. Un árbol de decisión funciona mediante una serie de preguntas 'si...entonces...' que dividen los datos en subconjuntos cada vez más homogéneos. Cada pregunta se basa en una 'variable' y el punto de decisión se llama 'split point'.

El proceso de creación de un árbol de decisión es iterativo (recursivo). Se busca el 'split point' óptimo para cada variable, considerando el equilibrio entre minimizar los 'falsos negativos' (San Francisco clasificado incorrectamente como Nueva York) y los 'falsos positivos' (Nueva York clasificado incorrectamente como San Francisco). A medida que se añaden más 'splits', la precisión del modelo aumenta, pero existe el riesgo de 'sobreajuste'. El sobreajuste ocurre cuando el modelo se ajusta demasiado a los datos de entrenamiento, capturando incluso el ruido y los detalles irrelevantes, lo que resulta en un mal rendimiento con datos nuevos (test data).

El artículo concluye resaltando la importancia de evaluar el modelo con datos que no se utilizaron para el entrenamiento (test data) para detectar el sobreajuste y comprender la verdadera capacidad de generalización del modelo. La próxima entrega abordará el tema del sobreajuste y el equilibrio entre la complejidad del modelo y su capacidad de generalización.