Dos modelos Qwen3 en un único DGX Spark: la aritmética de la residencia para LLM locales
Ejecutar dos modelos de lenguaje grandes de forma coresidente en una sola GPU exige un cálculo de memoria preciso, algo que el parámetro gpu_memory_utilization de vLLM no resuelve por sí solo. Este artículo recoge la experiencia práctica de desplegar Qwen3-Next-80B-Instruct-FP8 y Qwen3-4B-Instruct-2
