30 Jun 2026 · Original en inglés · Artículo

LongCat-2.0: un modelo MoE de 1,6 billones de parámetros entrenado íntegramente en ASIC de IA

Fuentes: Introducing LongCat-2.0: a 1.6T-parameter MoE model trained end-to-end on AI ASIC superpods

LongCat-2.0 es un nuevo modelo de lenguaje de arquitectura Mixture-of-Experts (MoE) con 1,6 billones de parámetros totales y unos 48.000 millones activados por token, presentado y liberado como código abierto por el equipo detrás de la familia LongCat. El salto respecto a versiones anteriores viene acompañado de mejoras arquitectónicas relevantes: por un lado, LongCat Sparse Attention (LSA), una evolución de la atención dispersa de DeepSeek con un indexador más ligero que acelera el procesamiento de contextos largos sin sacrificar calidad; por otro, un módulo de N-gram Embedding que amplía el espacio de embeddings unas 100 veces mediante combinaciones de tokens, mejorando la utilización de parámetros. En LongCat-2.0 se configura con n-grama de tamaño 5, sumando 135.000 millones de parámetros dedicados a esta función.

El preentrenamiento se realizó sobre más de 50.000 ASIC de IA distribuidos en clusters de decenas de miles de superpods, acumulando más de 35 billones de tokens y millones de horas de acelerador, sin retrocesos ni picos de pérdida irrecuperables. La elección de hardware alternativo a las GPU de Nvidia obligó a desarrollar desde cero buena parte del software de soporte, incluyendo optimizaciones de paralelismo, gestión de memoria, determinismo en comunicación y cómputo, detección de bit-flips y recuperación automática de fallos. El modelo se entrenó además con cientos de miles de millones de tokens de datos de contexto de 1 millón de tokens, lo que, sumado al post-entrenamiento con expertos especializados (agente, razonamiento e interacción), le permite abordar tareas largas de programación, razonamiento matemático y flujos agentic. LongCat-2.0 se integra con entornos de desarrollo como Claude Code, OpenClaw y Hermes, y está orientado a servir despliegues de contexto 1M con descomposición prefill/decode y balanceo de carga experto-paralelo.

Temas

desarrollo seguridad tecnologia

Etiquetas

longcat-2.0 mixture-of-experts sparse attention long context ai asic open source agentic ai model release n-gram embedding infrastructure

Entidades mencionadas

Hermes software

Claude Code software

Claude Monet fue un pintor francés, uno de los creadores del impresionismo. El término impresionismo deriva del título de su obra Impresión, sol naciente (1872).

LongCat-2.0 software

LongCat Sparse Attention protocol_standard

LongCat-Flash software

LongCat-Flash-Lite software

DeepSeek Sparse Attention protocol_standard

DeepSeek-V3.2-Exp software

Nvidia H800 hardware

N-gram Embedding protocol_standard

OpenClaw software

OpenClaw es un asistente virtual de inteligencia artificial de código abierto. Originalmente fundado por Peter Steinberger y se lanzó con el nombre Clawdbot, luego se renombró Moltbot y más tarde tomó

Ver en Wikipedia

LongCat organization

Longcat fue una gata doméstica japonesa que se convirtió en el tema de un meme de Internet debido a su longitud. Longcat, cuyo verdadero nombre era «Shiro», nació en 2002. Una imagen que la muestra si

Ver en Wikipedia

Enlaces

LongCat-Flash arxiv.org

DSA huggingface.co

LongCat-Flash-Lite arxiv.org