Jmaczan lanza tiny-vllm, motor educativo de inferencia LLM

El desarrollador Jmaczan ha lanzado en GitHub 'tiny-vllm', un motor de inferencia de alto rendimiento para modelos de lenguaje grande (LLM) desarrollado en C++ y CUDA. Esta iniciativa se presenta como una versión más compacta y educativa de vLLM, diseñada para derivar desde cero las matemáticas y ar

Domina la programación CUDA con los mejores libros del mercado

Esta lista curada reúne los mejores libros de programación CUDA, la plataforma de NVIDIA para computación paralela en GPUs. CUDA permite aprovechar la enorme capacidad de procesamiento paralelo de las tarjetas gráficas para tareas de alto rendimiento que antes requerían clusters costosos. La colecci

Librería Haskell optimiza cálculos de arrays de alto rendimiento

El proyecto Data.Array.Accelerate, desarrollado por el equipo AccelerateHS, es una librería Haskell que define un lenguaje embebido especializado para cálculos de arrays de alto rendimiento. Esta herramienta permite expresar computaciones sobre arrays multidimensionales regulares mediante operacione

Nuevo compilador permite escribir kernels para GPUs NVIDIA con Rust puro

cuda-oxide es un compilador experimental que permite escribir kernels (fragmentos de código ejecutados en paralelo por miles de hilos) para GPUs NVIDIA utilizando Rust puro, sin necesidad de aprender un lenguaje específico de dominio ni usar extensiones externas. Este proyecto funciona como un backe

30 años de HPC: Evolución y desafíos

Este artículo reflexiona sobre los 30 años de evolución de la computación de alto rendimiento (HPC) y la programación asociada, basándose en datos del ranking TOP500 de sistemas HPC y la evolución de los lenguajes y modelos de programación utilizados.

Entrenan LLM gigante en una GPU: avance tecnológico

El entrenamiento de modelos de lenguaje grandes (LLMs), como GPT-3 o LaMDA, es un desafío computacional enorme. Estos modelos pueden tener cientos de miles de millones de parámetros, lo que requiere una cantidad significativa de memoria y potencia de cálculo. Tradicionalmente, el entrenamiento de es

Eyot: Nuevo Lenguaje Facilita Programación de GPU

Un nuevo lenguaje de programación llamado Eyot ha sido desarrollado para simplificar el uso de GPUs y aceleradores en tareas computacionales. Creado por Steele Duncan de Cowley fornia Studios, Eyot busca eliminar la complejidad tradicional de la programación GPU, como la gestión de memoria y la comp

ZSE: Motor optimiza LLMs y reduce el uso de memoria

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria sign

llama 70B corre en RTX 3090 con nuevo motor

Un equipo de desarrolladores ha creado un nuevo motor de inferencia de alto rendimiento para modelos de lenguaje grandes (LLM) que permite ejecutar el modelo Llama 70B en una sola tarjeta gráfica RTX 3090. El motor, basado en C++/CUDA, utiliza una técnica de streaming de capas del modelo a través de

Crítica desata debate sobre arquitectura de GPU NVIDIA

Este documento es una crítica contundente a un artículo titulado "Microbenchmarking NVIDIA’s Blackwell Architecture: An in-depth Architectural Analysis", publicado en arXiv. La crítica, escrita por Sophia Wisdom, argumenta que el artículo es fundamentalmente defectuoso y carece de sentido técnico. E

BarraCUDA: CUDA en AMD GPUs, sin intermediarios

Un desarrollador ha creado BarraCUDA, un compilador de código abierto que permite ejecutar código CUDA en GPUs de AMD. El proyecto, escrito en C99 sin dependencia de LLVM, traduce archivos .cu directamente a código máquina GFX11 para GPUs AMD RDNA 3. Esto elimina la necesidad de capas de traducción

Nueva técnica acelera cálculos complejos con GPUs

El artículo de Bee Rosa Davis presenta una innovadora técnica llamada 'Curvature-Guided Wavefront Execution' (Ejecución de Frente de Onda Guiada por Curvatura) que revoluciona la resolución de problemas de satisfacción de restricciones (CSP) utilizando la potencia de las GPUs. En esencia, se trata d