Noticias que mencionan DeepSeek-V3

Anatomía de un kernel de paralelismo de expertos de alto rendimiento

Los modelos de lenguaje de gran tamaño (LLM) requieren coordinar muchas GPUs para funcionar. Una de las técnicas clave es el paralelismo de expertos (EP), esencial en los modelos MoE a gran escala. A diferencia de otras formas de paralelismo, cuyas comunicaciones siguen patrones fijos, en EP el rout

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

China Lanza GLM-5: Nuevo Rival para OpenAI

Zhipu AI, una empresa china de inteligencia artificial surgida de la Universidad Tsinghua, ha lanzado GLM-5, un modelo de lenguaje grande que se presenta como un competidor directo de OpenAI y Anthropic. GLM-5, la quinta generación de modelos de Zhipu AI, cuenta con aproximadamente 745 mil millones

Kimi K2.5: 100-Agent Swarms Need $500k GPUs to Run | byteiota

Moonshot AI ha lanzado Kimi K2.5, un modelo de lenguaje de código abierto de 1 billón de parámetros que utiliza 'agent swarms' (enjambres de agentes) para tareas complejas, ofreciendo una ejecución 4.5 veces más rápida que los modelos de agente único y capacidades de codificación visual a partir de