31 May 2026 · Original en inglés · Artículo

Rotary GPU: ejecución local de modelos MoE con memoria GPU limitada

Fuentes: Rotary GPU: Exploring Local Execution Paths for Large Mixture-of-Experts Models Under Limited GPU Memory

Imagen generada por IA con el prompt: A laptop with glowing GPU chip, abstract neural network layers floating above it, blue and purple tones, no faces, no text, no logos, minimalistic tech illustration. — Imagen generada con IA

Rotary GPU es un enfoque de ejecución local para modelos grandes de mezcla de expertos (MoE) que permite correrlos en hardware de consumo con memoria limitada. Desarrollado a partir del concepto de residencia en aceleradores rotatorios, el método fue validado públicamente con el modelo Qwen3.6-35B-A3B en una laptop con GPU RTX 4060 de 8 GB de VRAM. En la configuración principal, el sistema generó 2048 tokens de salida manteniendo unos 6.3 GB de uso de VRAM y alcanzando un rendimiento de decodificación de 21.06 tokens por segundo. El trabajo, presentado en arXiv el 27 de mayo de 2026, no busca reemplazar la infraestructura de centros de datos, sino explorar si algunas capacidades de los modelos grandes pueden acercarse a entornos sin acceso a grandes clústeres. El concepto de 'rutas de ejecución local' se basa en la idea de que no todos los parámetros de un modelo MoE necesitan estar activos simultáneamente; mediante una organización rotatoria, se pueden intercambiar expertos de manera eficiente en memoria. La motivación surge de limitaciones reales: muchas organizaciones operan con restricciones de hardware, presupuesto, seguridad o redes cerradas que impiden el uso de grandes aceleradores. A medida que los modelos mejoran, la accesibilidad de despliegue puede ser tan importante como su capacidad. Rotary GPU ofrece una vía prometedora para la inferencia local, aunque los autores advierten que los resultados son exploratorios y no definitivos. Consideraciones: el enfoque está diseñado para inferencia, no para entrenamiento. La velocidad de 21 tokens por segundo es adecuada para aplicaciones interactivas, pero puede no ser suficiente para procesamiento por lotes a gran escala. Además, el método se probó únicamente con un modelo específico; la generalización a otros modelos MoE requiere validación adicional. Alternativas como la cuantización o la poda pueden complementar esta técnica. En conjunto, Rotary GPU abre una línea de investigación importante para la democratización del acceso a modelos avanzados.

Temas

ciencia y salud

Etiquetas

rotary gpu mixture-of-experts gpu memory local inference rtx 4060 qwen arxiv

Entidades mencionadas

RTX 4060 Laptop GPU hardware

Qwen3.6-35B-A3B software

Rotary GPU software

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia