llama 70B corre en RTX 3090 con nuevo motor
Un equipo de desarrolladores ha creado un nuevo motor de inferencia de alto rendimiento para modelos de lenguaje grandes (LLM) que permite ejecutar el modelo Llama 70B en una sola tarjeta gráfica RTX 3090. El motor, basado en C++/CUDA, utiliza una técnica de streaming de capas del modelo a través de
