01 Jun 2026 · Original en inglés · Artículo

El redondeo estocástico elimina el sesgo en entrenamiento con baja precisión

Fuentes: Bias Compounds, Variance Washes Out

Imagen generada por IA con el prompt: A visual representation of bias compounding vs variance canceling: on one side, arrows consistently pointing right accumulate; on the other side, arrows pointing left and right cancel out, with a random walk path growing — Imagen generada con IA

El redondeo al más cercano produce el mismo error cada vez, que se acumula linealmente con el número de pasos. En cambio, el redondeo estocástico genera errores de media cero que se cancelan parcialmente, creciendo solo como la raíz cuadrada del número de pasos. Un experimento con un MLP pequeño entrenado en una tarea de regresión profesor-alumno usando HeavyBall y AdamW, con todos los parámetros almacenados en BF16, muestra que el redondeo estocástico (SR) en el estado del optimizador iguala el rendimiento de FP32 (10 bytes), mientras que el redondeo al más cercano (RNE) provoca que la pérdida se estanque órdenes de magnitud por encima. SR reemplaza el redondeo interno del kernel sin añadir memoria ni ancho de banda. El sesgo repetido de RNE impide que el modelo aprenda, mientras que el ruido insesgado de SR se promedia a lo largo del entrenamiento. El artículo describe el experimento, sus resultados y una corrección posterior.

Etiquetas

bf16 fp32 stochastic rounding round-to-nearest low-precision training heavyball adamw mlp teacher-student regression

Entidades mencionadas

HeavyBall organization

El festival Zomos Heavyllanos se lleva celebrando en todos los años en octubre desde 2004 en la ciudad de Sevilla, con el objetivo de recaudar fondos para niños desfavorecidos.

Ver en Wikipedia

AdamW software

BF16 protocol_standard

FP32 protocol_standard

Enlaces

HeavyBall github.com