21 Feb 2026 · Original en inglés · Resumen IA

llama 70B corre en RTX 3090 con nuevo motor

Fuentes: New Engine Lets Llama 70B Run on RTX 3090

Un equipo de desarrolladores ha creado un nuevo motor de inferencia de alto rendimiento para modelos de lenguaje grandes (LLM) que permite ejecutar el modelo Llama 70B en una sola tarjeta gráfica RTX 3090. El motor, basado en C++/CUDA, utiliza una técnica de streaming de capas del modelo a través de la memoria de la GPU mediante PCIe, e incluso incorpora una opción de acceso directo a NVMe para evitar el cuello de botella de la CPU. Esto se logra a través de un sistema de caché adaptativo de tres niveles que prioriza la residencia de las capas en la VRAM, seguido de la RAM anclada y, finalmente, el acceso a NVMe/mmap como último recurso. Las pruebas demuestran una aceleración de hasta 33 veces en comparación con los métodos tradicionales, aunque el rendimiento está limitado por el ancho de banda de PCIe. El motor es compatible con varios formatos de cuantización de modelos GGUF y arquitecturas de Llama, y se ejecuta bajo Linux. El proyecto, de código abierto, busca optimizar el rendimiento de los LLM en hardware de consumo, abriendo la puerta a ejecutar modelos complejos localmente sin necesidad de una infraestructura costosa.

Temas

ia desarrollo empresas

Etiquetas

llama rtx 3090 cuda llm nvidia open source artificial intelligence gpu

Entidades mencionadas

NVMe hardware

RTX 3090 hardware

GGUF software

Ubuntu location

RMSNorm software

Nvidia organization

NVIDIA Corporation es una empresa tecnológica de software y fabless que desarrolla unidades de procesamientos gráficos (GPU), interfaz de programación de aplicaciones (API) para ciencia de datos y com

Ver en Wikipedia

C++/CUDA software

Llama 70B software

PCIe protocol_standard

Llama 3.1 8B Q8_0 software

Llama 3.1 70B Q6_K software

CUDA Toolkit 13.1 software

gcc-14 software

g++-14 software

CMake 3.24+ software

RoPE software

GQA software

SwiGLU software

KV cache software