El usuario describe cómo configurar dos GPUs NVIDIA, una RTX 5080 (16 GB) y una RTX 3090 (24 GB), para ejecutar modelos de lenguaje locales de gran tamaño, específicamente Qwen 3.6 27B en cuantización Q8. La combinación alcanza más de 80 tokens por segundo en inferencia al distribuir el trabajo entre ambas tarjetas mediante una placa base Asus Prime X570-Pro, que divide un carril PCIe 16x en dos 8x. Se detallan los ajustes del BIOS (desactivar CSM, activar Above 4G Decoding y ReSize BAR, modo Gen4) y la instalación de controladores NVIDIA. Para gestionar dos GPUs de distinta generación se emplea el driver nvidia-open, junto con llama.cpp compilado con soporte para Ampere y Blackwell (CMAKE_CUDA_ARCHITECTURES="86;120"). Se desactiva NCCL y se usa el modo de distribución por tensores (-sm tensor) con una proporción de carga 2:3. Además, se aprovecha la especulación MTP (Multi-Token Prediction) con ngram-mod para acelerar la generación. El contexto máximo es de 230k tokens con KV-cache cuantizado a q8. Los resultados muestran velocidades de entre 80 y 90 tok/s. Este montaje es relevante para entusiastas de la IA que buscan ejecutar modelos avanzados localmente sin depender de la nube, aunque requiere conocimientos técnicos y componentes específicos.
