14 Jun 2026 · Original en inglés · Artículo

Montaje RTX 5080 + RTX 3090: más de 80 tokens/s con Qwen 3.6 27B Q8

Fuentes: RTX 5080 + RTX 3090 Setup: 80+ Tok/s on Qwen 3.6 27B Q8

El usuario describe cómo configurar dos GPUs NVIDIA, una RTX 5080 (16 GB) y una RTX 3090 (24 GB), para ejecutar modelos de lenguaje locales de gran tamaño, específicamente Qwen 3.6 27B en cuantización Q8. La combinación alcanza más de 80 tokens por segundo en inferencia al distribuir el trabajo entre ambas tarjetas mediante una placa base Asus Prime X570-Pro, que divide un carril PCIe 16x en dos 8x. Se detallan los ajustes del BIOS (desactivar CSM, activar Above 4G Decoding y ReSize BAR, modo Gen4) y la instalación de controladores NVIDIA. Para gestionar dos GPUs de distinta generación se emplea el driver nvidia-open, junto con llama.cpp compilado con soporte para Ampere y Blackwell (CMAKE_CUDA_ARCHITECTURES="86;120"). Se desactiva NCCL y se usa el modo de distribución por tensores (-sm tensor) con una proporción de carga 2:3. Además, se aprovecha la especulación MTP (Multi-Token Prediction) con ngram-mod para acelerar la generación. El contexto máximo es de 230k tokens con KV-cache cuantizado a q8. Los resultados muestran velocidades de entre 80 y 90 tok/s. Este montaje es relevante para entusiastas de la IA que buscan ejecutar modelos avanzados localmente sin depender de la nube, aunque requiere conocimientos técnicos y componentes específicos.

Etiquetas

nvidia geforce rtx 5080 nvidia geforce rtx 3090 llama.cpp qwen 3.6 multi-gpu setup local llm inference cuda asus prime x570-pro speculative decoding q8 quantization

Enlaces

https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/introduction. docs.nvidia.com

llama.cpp multi-GPUs documentation github.com

Qwen3.6 github.com