mixture of experts

15 Jul 2026

Thinking Machines lanza Inkling, su primer modelo abierto con 975.000 millones de parámetros

Thinking Machines ha presentado Inkling, su primer modelo de IA entrenado desde cero con pesos abiertos, junto a una versión reducida llamada Inkling-Small. Se trata de una arquitectura mixture-of-experts con 975.000 millones de parámetros totales (41.000 millones activos), capaz de razonar de forma

15 Jul 2026

Inkling: un modelo abierto de 975B parámetros con 41B activos para texto, imagen y audio

Inkling es un modelo de inteligencia artificial de pesos abiertos (open weights) diseñado para ser personalizado mediante fine-tuning. Se trata de un modelo generalista, eficiente y multimodales, capaz de procesar texto, imagen y audio como entradas nativas. A nivel arquitectónico, Inkling emplea u

15 Jul 2026

Ejecutan Gemma 4 26B en un Xeon de hace 13 años sin GPU gracias a un parche con IA

Un desarrollador estadounidense logró ejecutar el modelo Gemma 4 26B de Google, un *mixture-of-experts* de código abierto con 26.000 millones de parámetros, en un servidor HP StoreVirtual reconvertido con dos Xeon E5-2690 v2 (Ivy Bridge, 2013), sin tarjeta gráfica y por menos de 300 dólares. El sist

15 Jul 2026

Thinking Machines presenta Inkling, su primer modelo abierto de IA para empresas

Thinking Machines Lab, la startup fundada por la ex-CTO de OpenAI Mira Murati, lanzó este miércoles su primer modelo de IA propio, Inkling, un sistema de pesos abiertos que desarrolladores y empresas externas pueden descargar y modificar. A diferencia de los modelos insignia de OpenAI, Anthropic o G

13 Jul 2026

Receta de RL en NVFP4 para modelos de lenguaje: el aprendizaje de los 4 bits

El equipo de humans& presenta una receta de aprendizaje por refuerzo (RL) en precisión NVFP4 de 4 bits, desarrollada en colaboración con RadixArk y NVIDIA, que logra mantener la dinámica de entrenamiento en alta precisión y, al mismo tiempo, aprovechar los aumentos de throughput que ofrece el hardwa

11 Jul 2026

Mesh LLM: inferencia distribuida de modelos grandes sobre una red peer-to-peer

Mesh LLM es una plataforma de código abierto que permite ejecutar modelos de lenguaje grandes repartiendo el trabajo entre varios equipos o máquinas, en lugar de depender de un proveedor centralizado. Está desarrollada por el equipo n0 sobre iroh, su biblioteca de conectividad P2P, y se presenta com

10 Jul 2026

Optimización integral de inferencia para MiMo-V2.5: llevar la eficiencia Hybrid SWA al límite

La familia MiMo-V2.5, compuesta por las versiones MiMo-V2.5 y MiMo-V2.5-Pro, integra varias decisiones arquitectónicas orientadas a reducir el coste de razonamiento en contextos largos: atención híbrida con ventana deslizante (Hybrid SWA), que comprime el almacenamiento de la KVCache a aproximadamen

10 Jul 2026

Memoria unificada: por qué los mini PC ejecutan modelos de 70B que una GPU potente no puede

Los mini PC con memoria unificada, como los basados en AMD Strix Halo, NVIDIA DGX Spark o Apple Silicon, pueden cargar modelos de lenguaje de gran tamaño (LLM) que una tarjeta gráfica dedicada como la RTX 5090 no puede alojar, porque toda su RAM LPDDR5X soldada queda disponible como si fuera VRAM. U

09 Jul 2026

colibrì: motor en C que ejecuta GLM-5.2 (744B MoE) con 25 GB de RAM mediante streaming de expertos desde disco

colibrì es un motor de inferencia escrito en un único archivo de C (~1.300 líneas) y sin dependencias externas que permite ejecutar el modelo GLM-5.2, una arquitectura MoE de 744.000 millones de parámetros, en una máquina doméstica con aproximadamente 25 GB de RAM. El truco reside en explotar una pr

08 Jul 2026

El backend de modelado de transformers en vLLM alcanza velocidad nativa

Hugging Face ha anunciado una actualización del backend de modelado de transformers dentro de vLLM que permite ejecutar los modelos de Hugging Face a la misma velocidad —o superior— que las implementaciones nativas escritas a mano para vLLM, sin necesidad de portar el código. La mejora se valida con

05 Jul 2026

Decodificación especulativa: por qué la profundidad supera al ancho en GPU

Este análisis técnico de Doubleword examina un dilema habitual en la inferencia de modelos de lenguaje: cuando se busca aumentar el rendimiento por segundo en una sola GPU, ¿conviene aumentar el tamaño de lote (ancho) o apostar por la decodificación especulativa (profundidad)? El trabajo parte de un

30 Jun 2026

LongCat-2.0: un modelo MoE de 1,6 billones de parámetros entrenado íntegramente en ASIC de IA

LongCat-2.0 es un nuevo modelo de lenguaje de arquitectura Mixture-of-Experts (MoE) con 1,6 billones de parámetros totales y unos 48.000 millones activados por token, presentado y liberado como código abierto por el equipo detrás de la familia LongCat. El salto respecto a versiones anteriores viene

29 Jun 2026

Ornith-1.0: una familia de modelos abiertos que aprende sus propios andamios para programar

Ornith-1.0 es una familia de modelos de código abierto presentados por DeepReinforce AI y diseñados específicamente para tareas de programación agentic, es decir, aquellas en las que el modelo no solo genera código, sino que planifica, ejecuta comandos y resuelve problemas de ingeniería de software

28 Jun 2026

GLM 5.2 supera a Claude en pruebas de detección de vulnerabilidades IDOR

El modelo de código abierto GLM 5.2, desarrollado por la china Zhipu AI (Z.ai), obtuvo un 39 % de F1 en la detección de IDOR (Insecure Direct Object References) en el benchmark interno de Semgrep, superando a Claude Code, que alcanzó un 32 %, con un coste aproximado de 0,17 dólares por vulnerabilida

20 Jun 2026

La creciente complejidad de los LLM y el retorno de la composabilidad

Los grandes modelos de lenguaje han dejado de ser una pila limpia de módulos Transformer repetidos. Entre 2022 y 2023, en Meta, el trabajo en LLM —que condujo a Llama— contrastaba con la aparatosa complejidad de los sistemas de recomendación. La industria ha corregido esa brecha incorporando a los L

19 Jun 2026

UCCL-EP: un núcleo de comunicación experto paralelo independiente de la controladora de red

UCCL-EP es un proyecto de software descrito en un artículo reciente y abordado en una entrada de blog de Doubleword que busca reproducir las primitivas de comunicación experto-paralelo (EP) de la biblioteca DeepEP de DeepSeek, originalmente diseñadas para hardware de NVIDIA, sobre cualquier combinac

19 Jun 2026

GLM-5.2: el modelo open-weight más potente hasta la fecha y la realidad de ejecutarlo en local

El laboratorio chino Z.ai ha publicado GLM-5.2, un modelo de IA con licencia MIT que lidera el Artificial Analysis Intelligence Index v4.1 con 51 puntos, por delante de MiniMax-M3 y DeepSeek V4 Pro (ambos con 44) y de Kimi K2.6 (43). Se trata de una arquitectura Mixture-of-Experts con 753.000 millon

12 Jun 2026

Kimi K2.7 Code: el nuevo modelo de Moonshot AI para programación

Moonshot AI ha lanzado Kimi K2.7 Code, un modelo lingüístico de gran tamaño especializado en tareas de programación. Basado en la arquitectura Mixture-of-Experts, cuenta con 1 billón de parámetros totales y activa 32 mil millones por inferencia. El modelo alcanza una longitud de contexto de 256.000

11 Jun 2026

La economía de la decodificación especulativa en modelos de lenguaje

La decodificación especulativa es una técnica de optimización en inferencia de modelos de lenguaje que acelera la generación de tokens sin pérdida de calidad. Su principio es simple: el modelo predice varios tokens futuros de forma barata y luego verifica solo los aceptados, aprovechando el ancho de

10 Jun 2026

Google presenta DiffusionGemma, un modelo abierto que genera texto en paralelo y multiplica por cuatro la velocidad

Google DeepMind ha presentado DiffusionGemma, un nuevo modelo de la familia abierta Gemma 4 que abandona la generación autorregresiva tradicional —token a token, de izquierda a derecha— para producir bloques completos de texto en paralelo, una técnica inspirada en los modelos de generación de imagen

10 Jun 2026

Anatomía de un kernel de paralelismo de expertos de alto rendimiento

Los modelos de lenguaje de gran tamaño (LLM) requieren coordinar muchas GPUs para funcionar. Una de las técnicas clave es el paralelismo de expertos (EP), esencial en los modelos MoE a gran escala. A diferencia de otras formas de paralelismo, cuyas comunicaciones siguen patrones fijos, en EP el rout

10 Jun 2026

Google presenta DiffusionGemma, un modelo experimental de texto hasta cuatro veces más rápido

Google ha presentado DiffusionGemma, un modelo experimental de inteligencia artificial de código abierto que promete revolucionar la generación de texto al ofrecer velocidades hasta cuatro veces superiores a las de los modelos tradicionales. El anuncio, realizado a través del blog oficial de la comp

10 Jun 2026

Nex-N2-Pro: el modelo abierto de Nex AGI que rivaliza con GPT-5.5 en código

Nex AGI, un laboratorio chino de inteligencia artificial, publicó el 2 de junio de 2026 Nex-N2-Pro, un modelo de código abierto bajo licencia Apache 2.0 orientado a tareas agenticas como programación, uso de herramientas y flujos de trabajo autónomos. Se trata de una arquitectura de Mezcla de Expert

05 Jun 2026

General Instinct (YC P26) presenta InstinctRazor para ejecutar modelos frontier en hardware edge

Guanming y Bill, fundadores de General Instinct —startup de la promoción P26 de Y Combinator— han presentado InstinctRazor, una herramienta de código abierto orientada a comprimir modelos de inteligencia artificial frontier para ejecutarlos en hardware con recursos limitados como robots y dispositiv

02 Jun 2026

Microsoft AI presenta MAI-Thinking-1, su modelo de razonamiento de tamaño medio

Microsoft ha presentado MAI-Thinking-1, su primer modelo de inteligencia artificial de razonamiento avanzado desarrollado íntegramente desde cero por el equipo de Microsoft AI (MAI), sin recurrir a destilación de modelos de terceros. El anuncio, realizado en el marco de la conferencia Microsoft Buil

01 Jun 2026

Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU

## Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU: la hazaña técnica que desafía el 'memory wall' Un experimento publicado en el blog técnico point.free demuestra que es posible ejecutar un modelo de inteligencia artificial de última generación, concretamente Gemma 4 en su versión 26B con arquite

31 May 2026

Rotary GPU: ejecución local de modelos MoE con memoria GPU limitada

Rotary GPU es un enfoque de ejecución local para modelos grandes de mezcla de expertos (MoE) que permite correrlos en hardware de consumo con memoria limitada. Desarrollado a partir del concepto de residencia en aceleradores rotatorios, el método fue validado públicamente con el modelo Qwen3.6-35B-A

30 May 2026

Poolside AI Abre Sus Puertas: Nuevos Modelos Laguna Traen Poder de Codificación Agentic al Mundo de Código Abierto

La familia de modelos de IA Laguna, desarrollada por poolsideai, ha sido lanzada con dos miembros iniciales: Laguna M.1 y Laguna XS.2. Laguna M.1 es un modelo Mixture of Experts (MoE) con 225 mil millones de parámetros totales y 23 mil millones de parámetros activos, entrenado internamente con 30 bi

29 May 2026

Liquid AI lanza LFM2.5 con ventana de contexto de 128k tokens

Liquid AI ha anunciado hoy el lanzamiento de LFM2.5-8B-A1B, una evolución de su modelo de 'Mixture-of-Experts' diseñada para ejecutarse de manera eficiente y privada en hardware de consumo. Esta nueva versión, disponible bajo licencia abierta, supera a su predecesor al expandir su ventana de context

18 May 2026

Sistema Stratum combina DRAM 3D apilada para acelerar inferencia de modelos MoE

La propuesta de Stratum es un sistema de diseño conjunto hardware‑software que busca acelerar la inferencia de modelos de inteligencia artificial del tipo Mixture‑of‑Experts (MoE) mediante el uso de memorias DRAM monoliticas apiladas en 3D organizadas en varios niveles de capacidad y ancho de banda.

24 Apr 2026

DeepSeek-V4: IA procesa textos extensos sin problemas

DeepSeek-V4 es una nueva generación de modelos de lenguaje de gran escala (LLM) desarrollados por DeepSeek AI, que se destacan por su capacidad para procesar contextos extremadamente largos, hasta un millón de tokens. Esto representa un avance significativo, ya que la mayoría de los LLM tradicionale

05 Apr 2026

Gemma 4 de Google: IA potente ahora en tu PC

Google ha lanzado la familia de modelos Gemma 4, que ahora puede ejecutarse localmente en dispositivos gracias a la nueva versión 0.4.0 de LM Studio. Esta actualización introduce 'llmster' y la CLI 'lms', permitiendo a los usuarios ejecutar modelos como Gemma 4 26B en sus propios ordenadores, elimin

19 Feb 2026

IA de código abierto: Step 3.5 Flash desafía a gigantes

Step 3.5 Flash, un nuevo modelo de inteligencia artificial de código abierto, ha sido desarrollado para competir con sistemas propietarios de vanguardia. Este modelo, construido sobre una arquitectura de Mixture of Experts (MoE), utiliza solo 11 mil millones de sus 196 mil millones de parámetros por