29 May 2026 · Original en inglés · Resumen IA

Jmaczan lanza tiny-vllm, motor educativo de inferencia LLM

Fuentes: Científicos lanzan tiny-vllm, un motor de inferencia LLM de alto rendimiento

El desarrollador Jmaczan ha lanzado en GitHub 'tiny-vllm', un motor de inferencia de alto rendimiento para modelos de lenguaje grande (LLM) desarrollado en C++ y CUDA. Esta iniciativa se presenta como una versión más compacta y educativa de vLLM, diseñada para derivar desde cero las matemáticas y arquitectura detrás de la inferencia.

El proyecto incluye código fuente completo de un servidor de inferencia junto con un curso guiado. Permite cargar modelos como Llama 3.2 1B Instruct y ejecutar pasadas completas mediante kernels de CUDA. Entre sus características técnicas se encuentran la gestión de caché de claves y valores (KV cache), lotes estáticos y continuos, así como implementaciones de atención tipo FlashAttention y PagedAttention. El objetivo es maximizar la eficiencia del hardware y servir como herramienta de aprendizaje para estudiantes y universidades.

Temas

ia desarrollo

Etiquetas

jmaczan github tiny-vllm c++ cuda machine learning llm inference education

Entidades mencionadas

vLLM software

CUDA software

RMSNorm software

RoPE software

softmax software

TPUs hardware

tinygrad software

SiLU software

GPUs hardware

Llama 3.2 1B Instruct software

Safetensors software

cublasGemmEx software

FlashAttention software

PagedAttention software

Argmax software

Jmaczan person

Karén Abgárovich Jachánov es un tenista profesional ruso de origen armenio. Su mayor logro fue ganar un Masters 1000, en París 2018 frente al número 1 del mundo Novak Djokovic.

Ver en Wikipedia

C++ software

C++ es un lenguaje de programación diseñado en 1979 por Bjarne Stroustrup. La intención de su creación fue extender al lenguaje de programación C y añadir mecanismos que permiten la manipulación de ob

Ver en Wikipedia

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

pytorch software

PyTorch es una biblioteca de aprendizaje automático de código abierto basada en la biblioteca de Torch, utilizado para aplicaciones como visión artificial y procesamiento de lenguajes naturales, princ

Ver en Wikipedia