Este artículo, basado en la obra de Borges y Locke, explora una teoría sobre el funcionamiento del aprendizaje profundo (Deep Learning) que desafía las explicaciones tradicionales. Borges, a través de su personaje Funes, ilustra cómo la capacidad de recordar todo (datos sin filtrar) impide el pensamiento abstracto, que requiere generalización y olvido selectivo. De manera similar, las redes neuronales profundas, con su enorme cantidad de parámetros y capacidad para memorizar datos, presentan un desafío para la teoría del aprendizaje estadístico. La teoría clásica predice un sobreajuste catastrófico (benign overfitting), donde la red memoriza el conjunto de entrenamiento incluyendo el ruido, pero sorprendentemente, generaliza bien. Este fenómeno, conocido como 'double descent' y el concepto de 'grokking' (memorización inicial seguida de generalización tardía), son inconsistentes con la teoría convencional.
La investigación actual, liderada por el Diffusion Group en Stanford, propone una nueva perspectiva: abandonar el análisis del espacio de parámetros y, en cambio, examinar la red como un sistema dinámico en el espacio de salida. El enfoque se centra en cómo evolucionan las predicciones y cómo fluye el error. La clave de esta teoría reside en el Neural Tangent Kernel (eNTK), una matriz que describe cómo un cambio en un parámetro afecta a las predicciones en otros puntos de entrenamiento. El eNTK, junto con el propagador del ODE de gradiente, permite analizar la evolución de las predicciones durante el entrenamiento y, crucialmente, distinguir entre canales de señal (donde se aprende información útil) y un 'reservorio' (donde se almacena ruido y memorias irrelevantes). La teoría postula que el sobreparámetro, la profundidad y los sesgos inductivos tienen como objetivo crear un kernel que coloque la señal en el canal y el ruido en el reservorio.
Esta nueva teoría, respaldada por pruebas matemáticas y experimentales, ofrece una explicación de por qué las redes neuronales profundas generalizan a pesar de su capacidad para memorizar todo. Además, proporciona un algoritmo para entrenar modelos optimizando el riesgo de la población, abriendo nuevas vías para comprender y mejorar el aprendizaje profundo. La teoría se presenta como una simplificación radical, enfocándose en la dinámica de las predicciones en lugar de la complejidad de los parámetros, y ofrece una nueva herramienta para analizar y controlar el proceso de aprendizaje.
