Los grandes modelos de lenguaje han dejado de ser una pila limpia de módulos Transformer repetidos. Entre 2022 y 2023, en Meta, el trabajo en LLM —que condujo a Llama— contrastaba con la aparatosa complejidad de los sistemas de recomendación. La industria ha corregido esa brecha incorporando a los LLM la misma sofisticación: docenas de variantes de atención (agrupación de consultas, atención comprimida, dispersa, lineal, ventana deslizante), Mixture-of-Experts con enrutamiento selectivo, encoders de visión y audio cada vez más integrados y, además, paralelización de inferencia entre varias GPUs con sus operaciones de comunicación intercaladas. El texto compara esta evolución con la historia de los recsys: arquitecturas de dos torres simples cuya complejidad creció por la tensión entre capacidad y eficiencia, hasta que las mejoras de rendimiento dejaron de ser opcionales y pasaron a ser estructurales. Cuando se quiere sustituir una variante de atención por otra, no basta con que sea funcional: si la original está fusionada y optimizada, la nueva debe estarlo al menos parcialmente para poder evaluarla, lo que bloquea la iteración de investigación. La solución pasa por diseñar composabilidad desde el inicio, como hizo FlexAttention de PyTorch, que ofrece plantillas Triton para generar kernels verificables con un impacto mínimo en el rendimiento. El artículo también menciona que Andrej Karpathy se incorporó recientemente a Anthropic para desarrollar bucles de auto-investigación en la frontera, y sostiene que tan importante como un agente ingenioso es saber reducir las arquitecturas a su esencia y hacerlas componibles.
La creciente complejidad de los LLM y el retorno de la composabilidad
Fuentes:
LLMs are complicated now
