15 Mar 2026 · Original en inglés · Resumen IA

Galería online compara arquitecturas de LLM

Fuentes: LLM Architecture Gallery

Un repositorio en línea, alojado en sebastianraschka.com, ha sido creado para rastrear y comparar las arquitecturas de los últimos modelos de lenguaje grandes (LLM). La “Galería de Arquitecturas LLM” recopila diagramas y hojas de datos de modelos como Llama 3 8B, DeepSeek V3, Gemma 3, Qwen3, Mistral Small 3.1, y muchos otros, incluyendo variantes de GPT-OSS, Grok, MiniMax, Kimi, GLM y Nemotron. El repositorio, que se actualiza constantemente, proporciona una visión general de las tendencias en el diseño de LLM, destacando detalles clave como el número de parámetros (que varían desde 3 mil millones hasta 744 mil millones), el tipo de decodificador (denso o disperso MoE), y los mecanismos de atención utilizados (GQA, MLA, DeltaNet). La galería también incluye información sobre fechas de lanzamiento y detalles sobre las innovaciones en cada arquitectura, como el uso de atención local más agresiva en Gemma 3 o la incorporación de sparse attention en DeepSeek V3.2. El objetivo es ofrecer una referencia visual y técnica para comprender la rápida evolución de los LLM y facilitar la identificación de errores o imprecisiones a través de un sistema de seguimiento de problemas en GitHub.

Temas

Etiquetas

llm arquitectura inteligencia artificial sebastianraschka deepseek mistral llama gemma qwen glm

Entidades mencionadas

Kimi K2 software

DeepSeek R1 software

GitHub organization

GitHub es una forja para alojar proyectos utilizando el sistema de control de versiones Git. Se utiliza principalmente para la creación de código fuente de programas de computadora. El software que op

Ver en Wikipedia

LLM Architecture Gallery creative_work

The Big LLM Architecture Comparison creative_work

A Dream of Spring for Open-Weight LLMs creative_work

LLMs-from-scratch creative_work

Llama 3 8B software

OLMo 2 software

DeepSeek V3 software

Gemma 3 27B software

Mistral Small 3.1 24B software

Llama 4 Maverick software

Qwen3 235B-A22B software

Qwen3 32B software

Qwen3 4B software

Qwen3 8B software

SmolLM3 3B software

GLM-4.5 355B software

GPT-OSS 120B software

GPT-OSS 20B software

Grok 2.5 270B software

Qwen3 Next 80B-A3B software

MiniMax M2 230B software

Kimi Linear 48B-A3B software

OLMo 3 32B software

OLMo 3 7B software

DeepSeek V3.2 software

Mistral 3 Large software

Nemotron 3 Nano 30B-A3B software

MiMo-V2-Flash 309B software

Architecture Gallery issue tracker organization

If you spot an inaccurate fact sheet, mislabeled architecture, or broken link, please file an issue here: Architecture Gallery issue tracker.

Xiaomi organization

Xiaomi Corporation conocido comúnmente como Xiaomi y registrado como Xiaomi Inc., es una corporación multinacional y empresa tecnológica china con sede en Pekín dedicada a hacer tanto teléfonos como d

Ver en Wikipedia