Un usuario logró duplicar la memoria VRAM de su ordenador de juegos añadiendo una GPU de datacenter Tesla V100 SXM2 por un coste total de unas 200 libras. La necesidad surgió al querer ejecutar localmente modelos de lenguaje grandes (LLM) que requerían más de los 16 GB de su RTX 4080. La solución fue adquirir en eBay una Tesla V100 SXM2 de 16 GB (usada, por unas 150 libras) y un adaptador SXM2 a PCIe (unas 50 libras). La GPU, diseñada para servidores, no tiene conector PCIe estándar ni salidas de vídeo, pero con el adaptador encaja en la placa base junto a la RTX 4080, sumando 32 GB de VRAM total. El principal inconveniente fue el ventilador integrado en el adaptador, que alcanzaba 82 dB, insoportable para un entorno doméstico. El usuario logró controlarlo conectando los cables de señal PWM y tacómetro a un cabezal de ventilador de la placa base, reduciendo la velocidad al 10% y el ruido a un nivel aceptable, manteniendo las temperaturas por debajo de 50 °C. Con esta configuración, el sistema ejecuta modelos de 27 mil millones de parámetros a 32 tokens por segundo usando llama.cpp con división de tensores entre ambas GPUs. La memoria HBM2 de la V100 ofrece un ancho de banda de 900 GB/s, superior a los 736 GB/s de la RTX 4080 y a los Mac M5 Max (614 GB/s). La alternativa de una RTX 5090 de 32 GB cuesta más de 2.000 libras. En el lado del software, la configuración requiere NixOS con el driver NVIDIA legacy 535, kernel 6.6 y CUDA 12.2, ya que los drivers más recientes no soportan la arquitectura Volta. Todo funciona de forma estable, aunque no es compatible con Windows. Este montaje demuestra una vía económica para obtener gran capacidad de VRAM para inferencia local de LLM, con la salvedad de requerir conocimientos técnicos avanzados y ciertas limitaciones de software.
