Reflexionar para optimizar: descenso por gradiente proyectado sobre el simplex

Fuentes: Reflecting to optimise

Este artículo explica, de forma divulgativa y con un caso práctico, dos enfoques para optimizar una función no convexa cuyas variables deben ser un vector de probabilidades válido (no negativas y normalizadas). El primer enfoque, muy habitual en aprendizaje automático, consiste en reparametrizar el problema con logits y aplicar una softmax, para así optimizar sin restricciones. El segundo, más directo conceptualmente, es el descenso por gradiente proyectado (PGD): se calcula el paso de gradiente sobre las probabilidades y, cuando se sale de la región válida, se proyecta de vuelta al simplex, es decir, al conjunto de distribuciones de probabilidad permitido.

El texto detalla cómo se centra el gradiente restando su media para preservar la normalización y cómo la proyección sobre el simplex puede resolverse en tiempo lineal. Un aspecto clave que se señala es que, a medida que aumenta la dimensionalidad, el PGD tiende a generar soluciones dispersas: cada paso fuera del simplex se proyecta sobre una cara donde al menos una coordenada se anula, y este efecto se intensifica con el número de categorías.

Como motivación aplicada, el autor conecta el marco con el diseño de proteínas de novo mediante modelos como AlphaFold, donde el vector representa una distribución sobre aminoácidos y la función objetivo mide la calidad del plegamiento (por ejemplo, mediante ipSAE). Se concluye que la elección de la parametrización no es inocua: al tratarse de un problema no convexo, distintas transformaciones pueden conducir a óptimos distintos, lo que hace relevante entender las propiedades geométricas del espacio de optimización.