El redondeo al más cercano produce el mismo error cada vez, que se acumula linealmente con el número de pasos. En cambio, el redondeo estocástico genera errores de media cero que se cancelan parcialmente, creciendo solo como la raíz cuadrada del número de pasos. Un experimento con un MLP pequeño entrenado en una tarea de regresión profesor-alumno usando HeavyBall y AdamW, con todos los parámetros almacenados en BF16, muestra que el redondeo estocástico (SR) en el estado del optimizador iguala el rendimiento de FP32 (10 bytes), mientras que el redondeo al más cercano (RNE) provoca que la pérdida se estanque órdenes de magnitud por encima. SR reemplaza el redondeo interno del kernel sin añadir memoria ni ancho de banda. El sesgo repetido de RNE impide que el modelo aprenda, mientras que el ruido insesgado de SR se promedia a lo largo del entrenamiento. El artículo describe el experimento, sus resultados y una corrección posterior.
El redondeo estocástico elimina el sesgo en entrenamiento con baja precisión
Fuentes:
Bias Compounds, Variance Washes Out
