En los últimos años, los modelos generativos de aprendizaje profundo han transformado el diseño de biomoléculas. Sistemas como AlphaFold3 de DeepMind facilitaron la predicción de interacciones biomoleculares, lo que abrió la puerta a herramientas como Chai-2, Latent-X2 y Nabla, capaces de proponer anticuerpos y fármacos con propiedades optimizadas. La receta para mejorar estos sistemas es conocida: escalar el modelo, la computación y los datos. En el caso de AlphaFold3, el movimiento clave consistió en convertir la escala de secuencias en escala de estructuras, prediciendo el plegamiento 3D de millones de secuencias naturales —muchas procedentes de bases metagenómicas y de organismos nunca cultivados en laboratorio— para utilizarlas como datos de entrenamiento.
La empresa Ligo, que entrena modelos generativos para diseñar enzimas, decidió aplicar esta misma estrategia. Al intentar escalar sus datos estructurales prediciendo el plegamiento de más secuencias naturales, descubrió un problema: aunque el espacio teórico de secuencias proteicas es gigantesco, los pliegues que adopta la naturaleza son mucho más redundantes de lo que sugiere el número de secuencias. El equipo ilustra este desajuste con un ejemplo concreto extraído de la AlphaFold Database: tres proteínas con identidades de secuencia de apenas el 23,9-28,3 % comparten el mismo pliegue, con TM-scores locales de 0,768 a 0,813.
Para cuantificar el problema a gran escala, recurrieron a Foldseek, que había agrupado la AlphaFold Database en 2,3 millones de clústeres estructurales no singleton. Sin embargo, Ligo argumenta que el problema de agrupar estructuras predichas está mal planteado: las predicciones carecen del contexto experimental de un cristal e incluyen dominios desordenados, colas flexibles y proteínas multidominio cuya orientación relativa puede no ser significativa. Tras revisar su análisis, la empresa concluye que el número real de vecindarios estructurales reutilizables se acerca más a 25 000 que a 2,3 millones.
La consecuencia práctica es importante para el diseño de enzimas: aumentar la escala de secuencias naturales no garantiza una diversidad estructural proporcional, por lo que los investigadores deben replantear sus estrategias de datos de entrenamiento si quieren que los modelos generativos exploren regiones verdaderamente nuevas del espacio de pliegues.
