Rotary GPU: ejecución local de modelos MoE con memoria GPU limitada

Fuentes: Rotary GPU: Exploring Local Execution Paths for Large Mixture-of-Experts Models Under Limited GPU Memory
Rotary GPU: ejecución local de modelos MoE con memoria GPU limitada
Imagen generada con IA

Rotary GPU es un enfoque de ejecución local para modelos grandes de mezcla de expertos (MoE) que permite correrlos en hardware de consumo con memoria limitada. Desarrollado a partir del concepto de residencia en aceleradores rotatorios, el método fue validado públicamente con el modelo Qwen3.6-35B-A3B en una laptop con GPU RTX 4060 de 8 GB de VRAM. En la configuración principal, el sistema generó 2048 tokens de salida manteniendo unos 6.3 GB de uso de VRAM y alcanzando un rendimiento de decodificación de 21.06 tokens por segundo. El trabajo, presentado en arXiv el 27 de mayo de 2026, no busca reemplazar la infraestructura de centros de datos, sino explorar si algunas capacidades de los modelos grandes pueden acercarse a entornos sin acceso a grandes clústeres. El concepto de 'rutas de ejecución local' se basa en la idea de que no todos los parámetros de un modelo MoE necesitan estar activos simultáneamente; mediante una organización rotatoria, se pueden intercambiar expertos de manera eficiente en memoria. La motivación surge de limitaciones reales: muchas organizaciones operan con restricciones de hardware, presupuesto, seguridad o redes cerradas que impiden el uso de grandes aceleradores. A medida que los modelos mejoran, la accesibilidad de despliegue puede ser tan importante como su capacidad. Rotary GPU ofrece una vía prometedora para la inferencia local, aunque los autores advierten que los resultados son exploratorios y no definitivos. Consideraciones: el enfoque está diseñado para inferencia, no para entrenamiento. La velocidad de 21 tokens por segundo es adecuada para aplicaciones interactivas, pero puede no ser suficiente para procesamiento por lotes a gran escala. Además, el método se probó únicamente con un modelo específico; la generalización a otros modelos MoE requiere validación adicional. Alternativas como la cuantización o la poda pueden complementar esta técnica. En conjunto, Rotary GPU abre una línea de investigación importante para la democratización del acceso a modelos avanzados.