Librería PyTorch permite analizar Hessian de redes neuronales grandes sin alta memoria

Fuentes: New PyTorch library unlocks Hessian analysis for large neural networks
Librería PyTorch permite analizar Hessian de redes neuronales grandes sin alta memoria
Imagen generada con IA

Un nuevo módulo de Python llamado 'hessian-eigenthings' permite analizar la matriz Hessian de redes neuronales grandes sin requerir memoria cuadrática. Desarrollado por Noah Golmant en colaboración con investigadores de UC Berkeley, esta biblioteca calcula la eigendecomposición del Hessian usando métodos iterativos como Lanczos y la iteración estocástica, reduciendo drásticamente el costo computacional. La herramienta también calcula la Generalized Gauss-Newton (GGN) y la Fisher empírica, ofreciendo análisis de curvatura para modelos reales como HuggingFace y TransformerLens. Incluye además estimaciones de traza mediante Hutch++ y densidad espectral vía Stochastic Lanczos Quadrature. El análisis del Hessian es relevante porque los investigadores hipotizan que los mínimos planos ('flat minima') generalizan mejor, y que los Hessians de modelos grandes son de bajo rango. Esta librería resuelve una limitación histórica: el Hessian completo requiere memoria cuadrática en el número de parámetros, inviable para modelos de producción. Se instala vía pip con soporte opcional para transformers de HuggingFace y TransformerLens.