Este artículo explora una idea fascinante en el entrenamiento de redes neuronales: el impacto del orden en que se presentan los ejemplos de entrenamiento. Normalmente, se asume que el orden no debería importar, especialmente desde una perspectiva bayesiana donde el conjunto de datos es una colección desordenada. Sin embargo, en la práctica, el entrenamiento con descenso de gradiente sí se ve afectado por el orden. El artículo presenta un método para cuantificar este efecto, calculando el cambio en los parámetros de la red resultante de intercambiar el orden de dos ejemplos de entrenamiento. Esto se formaliza matemáticamente utilizando el concepto de 'vector campo' y su 'corchete de Lie'.
Imaginemos que cada ejemplo de entrenamiento 'empuja' los parámetros de la red en una dirección específica. Este 'empujón' se representa como un vector en un 'vector campo'. El descenso de gradiente mueve los parámetros en la dirección de este campo. El corchete de Lie, en este contexto, mide la diferencia en la posición final de los parámetros después de aplicar dos actualizaciones consecutivas, pero en diferentes órdenes. Esencialmente, nos dice cuánto cambia el resultado final al cambiar el orden de los ejemplos.
Para ilustrar esto, los autores entrenaron una red neuronal convolucional (MXResNet) en el conjunto de datos CelebA, que contiene imágenes de rostros con atributos asociados (como 'cabello negro' o 'hombre'). Calcularon los corchetes de Lie para diferentes puntos de control durante el entrenamiento y observaron que, en algunos casos, el intercambio de ejemplos conducía a cambios significativos en las predicciones de ciertos atributos, especialmente relacionados con el color del cabello. Analizaron estos cambios y proponen una hipótesis: la función de pérdida, al forzar la independencia de las predicciones de los atributos, puede estar contribuyendo a estas variaciones. Si el modelo no está seguro sobre el color del cabello de una persona, podría predecir una probabilidad del 50% para 'cabello negro' y 'cabello marrón', lo que lleva a inconsistencias cuando el orden de los ejemplos cambia.
El artículo también revela una correlación interesante entre la magnitud de los corchetes de Lie y la magnitud de los gradientes durante el entrenamiento, sugiriendo que la influencia del orden está relacionada con la fuerza de las actualizaciones de los parámetros. Finalmente, el artículo proporciona el código para calcular los corchetes de Lie, abriendo la puerta a una mayor investigación sobre el impacto del orden en el entrenamiento de redes neuronales y la posibilidad de mitigar estos efectos.
