Un repositorio en línea, alojado en sebastianraschka.com, ha sido creado para rastrear y comparar las arquitecturas de los últimos modelos de lenguaje grandes (LLM). La “Galería de Arquitecturas LLM” recopila diagramas y hojas de datos de modelos como Llama 3 8B, DeepSeek V3, Gemma 3, Qwen3, Mistral Small 3.1, y muchos otros, incluyendo variantes de GPT-OSS, Grok, MiniMax, Kimi, GLM y Nemotron. El repositorio, que se actualiza constantemente, proporciona una visión general de las tendencias en el diseño de LLM, destacando detalles clave como el número de parámetros (que varían desde 3 mil millones hasta 744 mil millones), el tipo de decodificador (denso o disperso MoE), y los mecanismos de atención utilizados (GQA, MLA, DeltaNet). La galería también incluye información sobre fechas de lanzamiento y detalles sobre las innovaciones en cada arquitectura, como el uso de atención local más agresiva en Gemma 3 o la incorporación de sparse attention en DeepSeek V3.2. El objetivo es ofrecer una referencia visual y técnica para comprender la rápida evolución de los LLM y facilitar la identificación de errores o imprecisiones a través de un sistema de seguimiento de problemas en GitHub.
Galería online compara arquitecturas de LLM
Fuentes:
LLM Architecture Gallery
