cuda - ojeo.com

14 Jul 2026

Análisis comparativo de GPU Tesla descatalogadas para nodos de inteligencia artificial en el laboratorio doméstico

Las GPU NVIDIA Tesla fuera de servicio —K80 con 24 GB de GDDR5 desde 60 dólares, P100 de 16 GB sobre los 75 dólares y V100 de 16 GB por debajo de los 200 dólares— se han convertido en una de las fuentes más accesibles de memoria de vídeo ociosa para entusiastas del hardware. Este proyecto documenta

14 Jul 2026

Spectral Compute quiere liberar a CUDA del hardware de Nvidia

Spectral Compute, una empresa londinense fundada en 2018 por cuatro ingenieros con 60 años de experiencia combinada en optimización para HPC, desarrolla SCALE, un compilador basado en CLang y LLVM que funciona como sustituto directo de NVCC, el compilador CUDA de Nvidia. La herramienta permite recom

09 Jul 2026

Ingeniería inversa de cuda-checkpoint de NVIDIA para acelerar arranques en frío

Doubleword publica un análisis técnico detallado de cuda-checkpoint, una utilidad poco documentada del driver propietario de NVIDIA que permite congelar un proceso CUDA en ejecución, serializar el estado de la GPU en memoria del host y restaurarlo después en el mismo punto. En un artículo anterior,

01 Jul 2026

Instantáneas de memoria en CPU y GPU para reducir los arranques en frío de modelos de IA

Cerebrium presenta un sistema de checkpointing que captura el estado completo de un contenedor —memoria CPU, memoria GPU, pesos del modelo y kernels CUDA ya compilados— para restaurarlo en cuestión de segundos en lugar de esperar varios minutos al arranque en frío. La técnica, integrada en su runtim

01 Jul 2026

tenferro-rs: una pila tensorial diferenciable en Rust para computación científica

tenferro-rs es una pila de tensores densos escrita en Rust que combina álgebra lineal, autodiferenciación al estilo de PyTorch y JAX, transformaciones trazadas, einsum, FFT y backends explícitos de CPU y CUDA. El proyecto, desarrollado por Hiroshi Shinaoka (Universidad de Saitama) para el equipo ten

30 Jun 2026

ZLUDA versión 6: ejecución de CUDA en GPUs AMD con soporte para PhysX y Blender

ZLUDA es un proyecto de software que permite ejecutar aplicaciones CUDA sin modificar sobre GPUs que no son de NVIDIA, principalmente AMD. Tras varios meses sin actualizaciones, su desarrollador publica un resumen de novedades que culmina con la versión 6, una edición mayor que no introduce cambios

30 Jun 2026

Anatomía de un kernel CUDA: del código en C al silicio de la GPU

Ejecutar un kernel aparentemente trivial —sumar dos vectores de un millón de floats— esconde una cadena de traducciones y movimientos de datos que este artículo recorre paso a paso. El programa fuente, escrito en CUDA C, se divide en dos ramas: el código del host lo compila el compilador habitual de

30 Jun 2026

Eliminar las burbujas de GPU en la inferencia de IA: pipelined decoding

El equipo de Moondream analiza en profundidad un problema frecuente en la inferencia de modelos de IA: las llamadas burbujas de GPU, periodos en los que el procesador gráfico permanece inactivo porque la CPU aún no le ha indicado la siguiente tarea. El artículo explica por qué aparecen durante el bu

28 Jun 2026

nanoeuler: un LLM estilo GPT-2 construido desde cero en C y CUDA

nanoeuler es un proyecto educativo e investigador que implementa un modelo de lenguaje tipo GPT-2 desde cero, sin recurrir a PyTorch, autograd ni librerías de aprendizaje automático. Todo el pipeline de entrenamiento —el forward, el backward, un tokenizador byte-level BPE escrito a mano, el preentre

25 Jun 2026

Anatomía del bucle de entrenamiento en PyTorch: cada línea y sus errores

Construir un bucle de entrenamiento en PyTorch parece sencillo, pero colocar cada instrucción en el orden correcto resulta sorprendentemente frágil: los entrenamientos fallan al converger, arrojan resultados incorrectos o consumen memoria excesiva cuando una línea está mal ubicada. Este artículo des

19 Jun 2026

Polar Signals presenta muestreo de PC en CUDA de bajo coste para producción

Polar Signals ha incorporado soporte de muestreo de contador de programa (PC) sobre NVIDIA CUDA a su perfilador continuo de código abierto, publicado en la versión v0.48.0 de Parca Agent. La técnica, basada en CUPTI y disponible desde la arquitectura Maxwell, registra en hardware la posición de inst

19 Jun 2026

La ISA no importa donde cuenta de verdad: el bloqueo x86 frente a la GPU

El bloqueo de la arquitectura x86 en servidores es real, pero su influencia se debilita conforme nos acercamos a la GPU. Este análisis examina cinco sockets o posiciones que orbitan el procesador gráfico en los sistemas de IA, y evalúa en cuáles la elección entre x86 y Arm resulta determinante y en

16 Jun 2026

NVIDIA Labs presenta cuTile-rs: un DSL en Rust para kernels de GPU seguros y basados en tiles

NVIDIA Labs ha presentado cuTile-rs, un proyecto de investigación que lleva el modelo de propiedad y seguridad de memoria de Rust a la programación de kernels para GPU. La herramienta, publicada en el repositorio NVlabs/cutile-rs, ofrece un lenguaje específico de dominio (DSL) en Rust para escribir

14 Jun 2026

TorchCodec 0.14 añade decodificación de vídeo HDR y un decodificador WAV rápido

TorchCodec, la biblioteca de PyTorch para decodificar audio y vídeo, ha lanzado su versión 0.14, compatible con torch 2.11 y superiores. La actualización incorpora dos novedades principales: un decodificador específico para archivos WAV y soporte para decodificación de vídeo HDR (alto rango dinámico

14 Jun 2026

Montaje RTX 5080 + RTX 3090: más de 80 tokens/s con Qwen 3.6 27B Q8

El usuario describe cómo configurar dos GPUs NVIDIA, una RTX 5080 (16 GB) y una RTX 3090 (24 GB), para ejecutar modelos de lenguaje locales de gran tamaño, específicamente Qwen 3.6 27B en cuantización Q8. La combinación alcanza más de 80 tokens por segundo en inferencia al distribuir el trabajo entr

13 Jun 2026

OpenCL y sus alternativas: lecciones de la democratización fallida

El artículo, quinta entrega de la serie "Democratizing AI Compute", escrito por Chris Lattner (cofundador de Modular), analiza por qué OpenCL y otros modelos de programación de GPU portátiles (como SYCL, oneAPI) fracasaron en convertirse en plataformas dominantes para la inteligencia artificial, a p

08 Jun 2026

Una implementación minimalista y didáctica de un transformador generativo a nivel de byte

El repositorio markusheimerl/gpt contiene una implementación desde cero de un modelo de lenguaje autorregresivo basado en la arquitectura transformer. A diferencia de las versiones tokenizadas habituales, este proyecto trabaja directamente con bytes (8 bits), lo que le permite modelar cualquier secu

06 Jun 2026

Cómo implementar operaciones personalizadas en PyTorch con C++ y CUDA

Esta entrada del blog explica cómo implementar operaciones personalizadas en PyTorch utilizando C++ y CUDA, y cómo integrarlas tanto en modelos de PyTorch como en programas de inferencia compilados con AOTInductor. El ejemplo guía es una convolución identidad mínima que ilustra el ciclo completo: de

01 Jun 2026

nbd-vram: usa la VRAM de tu GPU NVIDIA como swap en Linux

nbd-vram es una herramienta de código abierto que convierte la VRAM de una GPU NVIDIA en espacio de swap para Linux, pensada para portátiles con memoria soldada y sin posibilidad de ampliación. El proyecto, publicado por Sean Lobjoit bajo licencia MIT, se dirige a usuarios que cuentan con una tarjet

01 Jun 2026

RTX Spark: el superchip de NVIDIA para portátiles y sobremesas ultrafinos

NVIDIA entra de lleno en la carrera por la IA personal con el RTX Spark, un superchip que promete convertir a los ordenadores Windows en verdaderas máquinas de inteligencia artificial local. El anuncio fue realizado por el consejero delegado de la compañía, Jensen Huang, durante una conferencia pron

01 Jun 2026

Presentamos Surface Laptop Ultra: diseñado para los creadores del mundo

Microsoft presenta el Surface Laptop Ultra: la apuesta más ambiciosa de la línea Surface para creadores, desarrolladores y profesionales de la inteligencia artificial. Anunciado en el marco del Computex 2026, el nuevo equipo es fruto de una colaboración profunda entre Microsoft, NVIDIA y, según repo

29 May 2026

Jmaczan lanza tiny-vllm, motor educativo de inferencia LLM

El desarrollador Jmaczan ha lanzado en GitHub 'tiny-vllm', un motor de inferencia de alto rendimiento para modelos de lenguaje grande (LLM) desarrollado en C++ y CUDA. Esta iniciativa se presenta como una versión más compacta y educativa de vLLM, diseñada para derivar desde cero las matemáticas y ar

18 May 2026

Modal Labs reduce arranques en frío de inteligencia artificial en gpu 40 veces más rápido

Modal Labs ha logrado reducir hasta 40 veces los tiempos de inicio en frío de aplicaciones de inferencia de inteligencia artificial sobre GPUs, pasando de varios minutos a apenas decenas de segundos. La compañía implementó cuatro optimizaciones clave: buffers de nube que mantienen GPUs inactivas dis

17 May 2026

Domina la programación CUDA con los mejores libros del mercado

Esta lista curada reúne los mejores libros de programación CUDA, la plataforma de NVIDIA para computación paralela en GPUs. CUDA permite aprovechar la enorme capacidad de procesamiento paralelo de las tarjetas gráficas para tareas de alto rendimiento que antes requerían clusters costosos. La colecci

16 May 2026

Librería Haskell optimiza cálculos de arrays de alto rendimiento

El proyecto Data.Array.Accelerate, desarrollado por el equipo AccelerateHS, es una librería Haskell que define un lenguaje embebido especializado para cálculos de arrays de alto rendimiento. Esta herramienta permite expresar computaciones sobre arrays multidimensionales regulares mediante operacione

11 May 2026

Nuevo compilador permite escribir kernels para GPUs NVIDIA con Rust puro

cuda-oxide es un compilador experimental que permite escribir kernels (fragmentos de código ejecutados en paralelo por miles de hilos) para GPUs NVIDIA utilizando Rust puro, sin necesidad de aprender un lenguaje específico de dominio ni usar extensiones externas. Este proyecto funciona como un backe

17 Apr 2026

30 años de HPC: Evolución y desafíos

Este artículo reflexiona sobre los 30 años de evolución de la computación de alto rendimiento (HPC) y la programación asociada, basándose en datos del ranking TOP500 de sistemas HPC y la evolución de los lenguajes y modelos de programación utilizados.

08 Apr 2026

Entrenan LLM gigante en una GPU: avance tecnológico

El entrenamiento de modelos de lenguaje grandes (LLMs), como GPT-3 o LaMDA, es un desafío computacional enorme. Estos modelos pueden tener cientos de miles de millones de parámetros, lo que requiere una cantidad significativa de memoria y potencia de cálculo. Tradicionalmente, el entrenamiento de es

08 Mar 2026

Eyot: Nuevo Lenguaje Facilita Programación de GPU

Un nuevo lenguaje de programación llamado Eyot ha sido desarrollado para simplificar el uso de GPUs y aceleradores en tareas computacionales. Creado por Steele Duncan de Cowley fornia Studios, Eyot busca eliminar la complejidad tradicional de la programación GPU, como la gestión de memoria y la comp

26 Feb 2026

ZSE: Motor optimiza LLMs y reduce el uso de memoria

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria sign

21 Feb 2026

llama 70B corre en RTX 3090 con nuevo motor

Un equipo de desarrolladores ha creado un nuevo motor de inferencia de alto rendimiento para modelos de lenguaje grandes (LLM) que permite ejecutar el modelo Llama 70B en una sola tarjeta gráfica RTX 3090. El motor, basado en C++/CUDA, utiliza una técnica de streaming de capas del modelo a través de

21 Feb 2026

Crítica desata debate sobre arquitectura de GPU NVIDIA

Este documento es una crítica contundente a un artículo titulado "Microbenchmarking NVIDIA’s Blackwell Architecture: An in-depth Architectural Analysis", publicado en arXiv. La crítica, escrita por Sophia Wisdom, argumenta que el artículo es fundamentalmente defectuoso y carece de sentido técnico. E

17 Feb 2026

BarraCUDA: CUDA en AMD GPUs, sin intermediarios

Un desarrollador ha creado BarraCUDA, un compilador de código abierto que permite ejecutar código CUDA en GPUs de AMD. El proyecto, escrito en C99 sin dependencia de LLVM, traduce archivos .cu directamente a código máquina GFX11 para GPUs AMD RDNA 3. Esto elimina la necesidad de capas de traducción

16 Feb 2026

Nueva técnica acelera cálculos complejos con GPUs

El artículo de Bee Rosa Davis presenta una innovadora técnica llamada 'Curvature-Guided Wavefront Execution' (Ejecución de Frente de Onda Guiada por Curvatura) que revoluciona la resolución de problemas de satisfacción de restricciones (CSP) utilizando la potencia de las GPUs. En esencia, se trata d