El desarrollador Jmaczan ha lanzado en GitHub 'tiny-vllm', un motor de inferencia de alto rendimiento para modelos de lenguaje grande (LLM) desarrollado en C++ y CUDA. Esta iniciativa se presenta como una versión más compacta y educativa de vLLM, diseñada para derivar desde cero las matemáticas y arquitectura detrás de la inferencia.
El proyecto incluye código fuente completo de un servidor de inferencia junto con un curso guiado. Permite cargar modelos como Llama 3.2 1B Instruct y ejecutar pasadas completas mediante kernels de CUDA. Entre sus características técnicas se encuentran la gestión de caché de claves y valores (KV cache), lotes estáticos y continuos, así como implementaciones de atención tipo FlashAttention y PagedAttention. El objetivo es maximizar la eficiencia del hardware y servir como herramienta de aprendizaje para estudiantes y universidades.
