03 Jun 2026 · Original en inglés · Artículo

La irrazonable redundancia de los pliegues proteicos de la naturaleza

Fuentes: The Unreasonable Redundancy of Nature's Protein Folds

Imagen generada por IA con el prompt: Abstract 3D rendering of intertwined protein helices and beta sheets in deep blue and amber, layered with faint glowing neural network nodes on a dark gradient background. — Imagen generada con IA

En los últimos años, los modelos generativos de aprendizaje profundo han transformado el diseño de biomoléculas. Sistemas como AlphaFold3 de DeepMind facilitaron la predicción de interacciones biomoleculares, lo que abrió la puerta a herramientas como Chai-2, Latent-X2 y Nabla, capaces de proponer anticuerpos y fármacos con propiedades optimizadas. La receta para mejorar estos sistemas es conocida: escalar el modelo, la computación y los datos. En el caso de AlphaFold3, el movimiento clave consistió en convertir la escala de secuencias en escala de estructuras, prediciendo el plegamiento 3D de millones de secuencias naturales —muchas procedentes de bases metagenómicas y de organismos nunca cultivados en laboratorio— para utilizarlas como datos de entrenamiento.

La empresa Ligo, que entrena modelos generativos para diseñar enzimas, decidió aplicar esta misma estrategia. Al intentar escalar sus datos estructurales prediciendo el plegamiento de más secuencias naturales, descubrió un problema: aunque el espacio teórico de secuencias proteicas es gigantesco, los pliegues que adopta la naturaleza son mucho más redundantes de lo que sugiere el número de secuencias. El equipo ilustra este desajuste con un ejemplo concreto extraído de la AlphaFold Database: tres proteínas con identidades de secuencia de apenas el 23,9-28,3 % comparten el mismo pliegue, con TM-scores locales de 0,768 a 0,813.

Para cuantificar el problema a gran escala, recurrieron a Foldseek, que había agrupado la AlphaFold Database en 2,3 millones de clústeres estructurales no singleton. Sin embargo, Ligo argumenta que el problema de agrupar estructuras predichas está mal planteado: las predicciones carecen del contexto experimental de un cristal e incluyen dominios desordenados, colas flexibles y proteínas multidominio cuya orientación relativa puede no ser significativa. Tras revisar su análisis, la empresa concluye que el número real de vecindarios estructurales reutilizables se acerca más a 25 000 que a 2,3 millones.

La consecuencia práctica es importante para el diseño de enzimas: aumentar la escala de secuencias naturales no garantiza una diversidad estructural proporcional, por lo que los investigadores deben replantear sus estrategias de datos de entrenamiento si quieren que los modelos generativos exploren regiones verdaderamente nuevas del espacio de pliegues.

Etiquetas

protein folding deep learning alphafold enzyme design generative models structural biology metagenomics ligo

Entidades mencionadas

DeepMind organization

Google DeepMind es una compañía inglesa de investigación y desarrollo de inteligencia artificial adquirida el 26 de enero de 2014 por Alphabet Inc., empresa matriz de Google.

Ver en Wikipedia

AlphaFold3 software

AlphaFold Database software

Chai-2 software

Latent-X2 software

Nabla software

LIGO organization

LIGO es un Observatorio de detección de ondas gravitatorias. Las siglas provienen del inglés LIGO. La misión para la que se diseñó es confirmar la existencia de las ondas gravitatorias predichas por l

Ver en Wikipedia

Foldseek software

MGnify software

Protein Data Bank organization

Protein Data Bank (PDB) es una base de datos de la estructura tridimensional de las proteínas y ácidos nucleicos. Estos datos, generalmente obtenidos mediante cristalografía de rayos X o resonancia ma

Ver en Wikipedia

Enlaces

Chai-2 www.chaidiscovery.com

Latent-X2 www.latentlabs.com

Nabla www.nabla.bio

reporting 2.3 million non-singleton structural clusters www.nature.com

OpenFold3-predicted structures released through the OpenFold datasets portal portal.openfold.omsf.io