Gram Newton-Schulz acelera el optimizador Muon en modelos de lenguaje
El optimizador Muon se ha consolidado como una herramienta clave para el entrenamiento de modelos de lenguaje de última generación como Kimi K2 o GLM-5, ya que requiere menos pasos que AdamW para alcanzar una misma pérdida. Sin embargo, cada paso de Muon es más costoso debido a su procedimiento de o
