CUDA

29 May 2026

Jmaczan lanza tiny-vllm, motor educativo de inferencia LLM

El desarrollador Jmaczan ha lanzado en GitHub 'tiny-vllm', un motor de inferencia de alto rendimiento para modelos de lenguaje grande (LLM) desarrollado en C++ y CUDA. Esta iniciativa se presenta como una versión más compacta y educativa de vLLM, diseñada para derivar desde cero las matemáticas y ar

28 May 2026

ChatGPT y Claude hallan errores en compiladores de forma sorprendente

Este artículo detalla un experimento sorprendente sobre la búsqueda de errores en compiladores, utilizando modelos de lenguaje avanzados como ChatGPT y Claude. Justin Lebar, un experto en compiladores con experiencia en Google, Waymo y OpenAI, descubrió que podía encontrar una cantidad significativa

23 May 2026

Optimizar deep learning desde principios fundamentales para maximizar la eficiencia GPU.

La optimización del rendimiento en modelos de aprendizaje profundo a menudo se reduce a una colección de trucos ad-hoc sin fundamento, como instalar versiones específicas de PyTorch o usar operaciones in-place. Sin embargo, para lograr un rendimiento óptimo y sostenible, es crucial entender los prin

22 May 2026

Nueva librería KVBoost permite ejecutar LLMs grandes con poca VRAM

KVBoost es una nueva librería de código abierto desarrollada por el repositorio Pythongiant que acelera significativamente la inferencia de grandes modelos de lenguaje (LLM) reduciendodrásticamente los requisitos de memoria VRAM. La herramienta解决los principales problemas de rendimiento: los modelos

20 May 2026

ByteDance presenta Lance, el modelo multimodal de IA más eficiente con solo 3B parámetros

Lance es un modelo de inteligencia artificial desarrollado por ByteDance que alcanza un hito importante en el campo de la IA multimodal: lograr capacidades de generación, edición y entendimiento de imágenes y videos dentro de un únicoframework unificado, utilizando únicamente 3 mil millones de parám

20 May 2026

Guía: habilita Resizable BAR en RTX 3080 desde Linux

Este repositorio documenta el proceso para habilitar Resizable BAR (una tecnología PCIe que permite expandir la ventana de memoria direccionable por la CPU hacia la VRAM de la GPU) en una NVIDIA RTX 3080 de ASUS, realizándolo íntegramente desde Linux sin necesidad de Windows ni herramientas gráficas

18 May 2026

Modal Labs reduce arranques en frío de inteligencia artificial en gpu 40 veces más rápido

Modal Labs ha logrado reducir hasta 40 veces los tiempos de inicio en frío de aplicaciones de inferencia de inteligencia artificial sobre GPUs, pasando de varios minutos a apenas decenas de segundos. La compañía implementó cuatro optimizaciones clave: buffers de nube que mantienen GPUs inactivas dis

17 May 2026

Domina la programación CUDA con los mejores libros del mercado

Esta lista curada reúne los mejores libros de programación CUDA, la plataforma de NVIDIA para computación paralela en GPUs. CUDA permite aprovechar la enorme capacidad de procesamiento paralelo de las tarjetas gráficas para tareas de alto rendimiento que antes requerían clusters costosos. La colecci

16 May 2026

Librería Haskell optimiza cálculos de arrays de alto rendimiento

El proyecto Data.Array.Accelerate, desarrollado por el equipo AccelerateHS, es una librería Haskell que define un lenguaje embebido especializado para cálculos de arrays de alto rendimiento. Esta herramienta permite expresar computaciones sobre arrays multidimensionales regulares mediante operacione

11 May 2026

Nuevo compilador permite escribir kernels para GPUs NVIDIA con Rust puro

cuda-oxide es un compilador experimental que permite escribir kernels (fragmentos de código ejecutados en paralelo por miles de hilos) para GPUs NVIDIA utilizando Rust puro, sin necesidad de aprender un lenguaje específico de dominio ni usar extensiones externas. Este proyecto funciona como un backe

09 May 2026

Modal mejora inferencia multimodal más de 10% con un simple diccionario Python

La plataforma Modal ha logrado mejorar el rendimiento de inferencia multimodal en más de un 10% mediante la implementación de un simple diccionario Python en el motor de inferencia SGLang. El cambio, ya integrado en SGLang v0.5.10, aumentó el throughput de solicitudes de 22.2 a 25.7 req/s (un 16.2%

05 May 2026

Entrena GPT en tu laptop: Taller práctico y accesible

Un desarrollador ha creado un taller práctico para permitir a usuarios entrenar modelos GPT en laptops, incluso sin experiencia previa en aprendizaje automático. Inspirado por el proyecto 'nanoGPT' de Andrej Karpathy, el taller simplifica el proceso, reduciendo el tamaño del modelo a aproximadamente

27 Apr 2026

Utilyze: Herramienta revela el uso real de GPUs en IA

Una nueva herramienta de código abierto llamada Utilyze, desarrollada por Systalyze, busca solucionar un problema generalizado en la industria de la inteligencia artificial: la medición engañosa de la utilización de las GPU. Las métricas estándar, proporcionadas por herramientas como nvidia-smi, nvt

26 Apr 2026

DeepSeek-V4: Lanzamiento rápido con soporte inmediato

DeepSeek-V4, un modelo de lenguaje de gran escala, ha recibido soporte inmediato (Día 0) para inferencia y entrenamiento de refuerzo gracias a SGLang y Miles, una plataforma de código abierto. Esta novedad es significativa porque permite aprovechar al máximo las capacidades del modelo desde su lanza

25 Apr 2026

Blender simula el cosmos: física y arte se unen

Este artículo, escrito por MohammadHossein Jamshidi (un estudiante de doctorado en Física/Cosmología y también ingeniero de animación con experiencia en la industria de los videojuegos), explora el uso innovador de Nodos de Geometría en Blender para aplicaciones cosmológicas. El objetivo principal e

20 Apr 2026

Trellis-2: Modelado 3D ahora en Macs Apple Silicon

Microsoft's vanguardia imagen-a-modelo 3D, TRELLIS.2, puede ahora ejecutarse de forma nativa en Macs con Apple Silicon sin necesidad de una GPU NVIDIA, gracias a una adaptación desarrollada por Shivampkumar y publicada en GitHub. Este desarrollo significativo aprovecha PyTorch MPS, permitiendo a los

16 Apr 2026

Cloudflare simplifica el uso de IA para desarrolladores

Cloudflare ha lanzado una capa unificada de inferencia de IA para desarrolladores, denominada AI Gateway, que simplifica el acceso y la gestión de modelos de IA de múltiples proveedores. Esta nueva herramienta permite a los desarrolladores utilizar un único API para acceder a más de 70 modelos de 12

11 Apr 2026

Evolve optimiza renderizado con nueva tecnología

Este artículo de Evolve Benchmark detalla la evolución de su infraestructura para el procesamiento de redes neuronales (NN) en motores de renderizado, centrándose en la introducción y el uso de la tecnología Cooperative Vector en Vulkan y DirectX. Inicialmente, la empresa implementó su propia infrae

09 Apr 2026

Agente IA optimiza código, mejora rendimiento en IA

Un agente de codificación ha logrado optimizar el código de Flash Attention en llama.cpp en un 15% para x86 y un 5% para ARM, gracias a la incorporación de una fase de investigación previa a la codificación. El equipo de SkyPilot, utilizando la herramienta autoresearch (y su versión generalizada, pi

08 Apr 2026

Entrenan LLM gigante en una GPU: avance tecnológico

El entrenamiento de modelos de lenguaje grandes (LLMs), como GPT-3 o LaMDA, es un desafío computacional enorme. Estos modelos pueden tener cientos de miles de millones de parámetros, lo que requiere una cantidad significativa de memoria y potencia de cálculo. Tradicionalmente, el entrenamiento de es

04 Apr 2026

TQ4_1S: LLMs más pequeños para dispositivos Apple

Un desarrollador ha presentado una nueva técnica de compresión de modelos de lenguaje grandes (LLM) llamada TQ4_1S, diseñada específicamente para dispositivos Apple con chips Metal. Esta técnica reduce el tamaño de los modelos en un 27-38%, dependiendo del modelo, sin necesidad de reentrenamiento ni

08 Mar 2026

Eyot: Nuevo Lenguaje Facilita Programación de GPU

Un nuevo lenguaje de programación llamado Eyot ha sido desarrollado para simplificar el uso de GPUs y aceleradores en tareas computacionales. Creado por Steele Duncan de Cowley fornia Studios, Eyot busca eliminar la complejidad tradicional de la programación GPU, como la gestión de memoria y la comp

01 Mar 2026

Python y Monorepos: Una Nueva Era para Desarrolladores

Este artículo explora el concepto de 'monorepos' en el contexto del desarrollo de Python, un enfoque que organiza múltiples proyectos relacionados en un único repositorio. Tradicionalmente, los monorepos eran difíciles de mantener debido a la complejidad de gestionar dependencias y la necesidad de h

26 Feb 2026

ZSE: Motor optimiza LLMs y reduce el uso de memoria

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria sign

21 Feb 2026

Crítica desata debate sobre arquitectura de GPU NVIDIA

Este documento es una crítica contundente a un artículo titulado "Microbenchmarking NVIDIA’s Blackwell Architecture: An in-depth Architectural Analysis", publicado en arXiv. La crítica, escrita por Sophia Wisdom, argumenta que el artículo es fundamentalmente defectuoso y carece de sentido técnico. E

17 Feb 2026

BarraCUDA: CUDA en AMD GPUs, sin intermediarios

Un desarrollador ha creado BarraCUDA, un compilador de código abierto que permite ejecutar código CUDA en GPUs de AMD. El proyecto, escrito en C99 sin dependencia de LLVM, traduce archivos .cu directamente a código máquina GFX11 para GPUs AMD RDNA 3. Esto elimina la necesidad de capas de traducción

16 Feb 2026

Ocr sin servidor: 40 líneas de código lo hacen posible

Un desarrollador ha creado un sistema de Reconocimiento Óptico de Caracteres (OCR) sin servidor utilizando un modelo de código abierto, DeepSeek OCR, en tan solo 40 líneas de código. La solución, implementada a través de la plataforma Modal, permite procesar documentos PDF, incluso aquellos con nota

16 Feb 2026

Nueva técnica acelera cálculos complejos con GPUs

El artículo de Bee Rosa Davis presenta una innovadora técnica llamada 'Curvature-Guided Wavefront Execution' (Ejecución de Frente de Onda Guiada por Curvatura) que revoluciona la resolución de problemas de satisfacción de restricciones (CSP) utilizando la potencia de las GPUs. En esencia, se trata d

Noticias que mencionan CUDA