Rotary GPU: ejecución local de modelos MoE con memoria GPU limitada

Rotary GPU es un enfoque de ejecución local para modelos grandes de mezcla de expertos (MoE) que permite correrlos en hardware de consumo con memoria limitada. Desarrollado a partir del concepto de residencia en aceleradores rotatorios, el método fue validado públicamente con el modelo Qwen3.6-35B-A

Liquid AI lanza LFM2.5 con ventana de contexto de 128k tokens

Liquid AI ha anunciado hoy el lanzamiento de LFM2.5-8B-A1B, una evolución de su modelo de 'Mixture-of-Experts' diseñada para ejecutarse de manera eficiente y privada en hardware de consumo. Esta nueva versión, disponible bajo licencia abierta, supera a su predecesor al expandir su ventana de context

Sistema Stratum combina DRAM 3D apilada para acelerar inferencia de modelos MoE

La propuesta de Stratum es un sistema de diseño conjunto hardware‑software que busca acelerar la inferencia de modelos de inteligencia artificial del tipo Mixture‑of‑Experts (MoE) mediante el uso de memorias DRAM monoliticas apiladas en 3D organizadas en varios niveles de capacidad y ancho de banda.

DeepSeek-V4: IA procesa textos extensos sin problemas

DeepSeek-V4 es una nueva generación de modelos de lenguaje de gran escala (LLM) desarrollados por DeepSeek AI, que se destacan por su capacidad para procesar contextos extremadamente largos, hasta un millón de tokens. Esto representa un avance significativo, ya que la mayoría de los LLM tradicionale

Gemma 4 de Google: IA potente ahora en tu PC

Google ha lanzado la familia de modelos Gemma 4, que ahora puede ejecutarse localmente en dispositivos gracias a la nueva versión 0.4.0 de LM Studio. Esta actualización introduce 'llmster' y la CLI 'lms', permitiendo a los usuarios ejecutar modelos como Gemma 4 26B en sus propios ordenadores, elimin

IA de código abierto: Step 3.5 Flash desafía a gigantes

Step 3.5 Flash, un nuevo modelo de inteligencia artificial de código abierto, ha sido desarrollado para competir con sistemas propietarios de vanguardia. Este modelo, construido sobre una arquitectura de Mixture of Experts (MoE), utiliza solo 11 mil millones de sus 196 mil millones de parámetros por