pytorch - ojeo.com

30 Jun 2026

ZLUDA versión 6: ejecución de CUDA en GPUs AMD con soporte para PhysX y Blender

ZLUDA es un proyecto de software que permite ejecutar aplicaciones CUDA sin modificar sobre GPUs que no son de NVIDIA, principalmente AMD. Tras varios meses sin actualizaciones, su desarrollador publica un resumen de novedades que culmina con la versión 6, una edición mayor que no introduce cambios

30 Jun 2026

Eliminar las burbujas de GPU en la inferencia de IA: pipelined decoding

El equipo de Moondream analiza en profundidad un problema frecuente en la inferencia de modelos de IA: las llamadas burbujas de GPU, periodos en los que el procesador gráfico permanece inactivo porque la CPU aún no le ha indicado la siguiente tarea. El artículo explica por qué aparecen durante el bu

25 Jun 2026

Anatomía del bucle de entrenamiento en PyTorch: cada línea y sus errores

Construir un bucle de entrenamiento en PyTorch parece sencillo, pero colocar cada instrucción en el orden correcto resulta sorprendentemente frágil: los entrenamientos fallan al converger, arrojan resultados incorrectos o consumen memoria excesiva cuando una línea está mal ubicada. Este artículo des

23 Jun 2026

Baidu presenta Unlimited-OCR, un modelo de código abierto para解析 de documentos de una sola pasada y horizonte largo

Unlimited-OCR es un proyecto de código abierto desarrollado por Baidu que avanza la tarea de reconocimiento óptico de caracteres (OCR) sobre documentos completos con el objetivo de alcanzar el parsing de horizonte largo en una sola pasada, tomando como referencia DeepSeek-OCR. El repositorio ofrece

22 Jun 2026

Sufijos de forma: una convención para nombrar tensores con claridad

Character.AI ha compartido una convención interna, vigente desde 2022, que añade al nombre de cada tensor un sufijo con las letras de sus dimensiones. El objetivo es que cualquier variable revele de un vistazo la forma del tensor con el que se trabaja, sin necesidad de rastrear el código. La regla

20 Jun 2026

La creciente complejidad de los LLM y el retorno de la composabilidad

Los grandes modelos de lenguaje han dejado de ser una pila limpia de módulos Transformer repetidos. Entre 2022 y 2023, en Meta, el trabajo en LLM —que condujo a Llama— contrastaba con la aparatosa complejidad de los sistemas de recomendación. La industria ha corregido esa brecha incorporando a los L

14 Jun 2026

TorchCodec 0.14 añade decodificación de vídeo HDR y un decodificador WAV rápido

TorchCodec, la biblioteca de PyTorch para decodificar audio y vídeo, ha lanzado su versión 0.14, compatible con torch 2.11 y superiores. La actualización incorpora dos novedades principales: un decodificador específico para archivos WAV y soporte para decodificación de vídeo HDR (alto rango dinámico

13 Jun 2026

OpenCL y sus alternativas: lecciones de la democratización fallida

El artículo, quinta entrega de la serie "Democratizing AI Compute", escrito por Chris Lattner (cofundador de Modular), analiza por qué OpenCL y otros modelos de programación de GPU portátiles (como SYCL, oneAPI) fracasaron en convertirse en plataformas dominantes para la inteligencia artificial, a p

09 Jun 2026

Función de activación Softmax: qué es y cómo se implementa

La función Softmax es una de las piezas fundamentales en las redes neuronales modernas, especialmente en tareas de clasificación multiclase. Se trata de una función matemática no lineal que convierte un vector de puntuaciones brutas, denominadas logits y que pueden tomar cualquier valor real positiv

06 Jun 2026

Cómo implementar operaciones personalizadas en PyTorch con C++ y CUDA

Esta entrada del blog explica cómo implementar operaciones personalizadas en PyTorch utilizando C++ y CUDA, y cómo integrarlas tanto en modelos de PyTorch como en programas de inferencia compilados con AOTInductor. El ejemplo guía es una convolución identidad mínima que ilustra el ciclo completo: de

05 Jun 2026

GIGABYTE presenta en Computex 2026 la expansión de su ecosistema AI TOP para ejecutar IA local

GIGABYTE ha presentado en Computex 2026 la expansión de su ecosistema AI TOP, una plataforma de hardware y sistemas diseñada para entrenar, ejecutar y automatizar modelos de inteligencia artificial de forma local, sin depender de servicios en la nube. La propuesta se articula bajo el lema "Create Yo

05 Jun 2026

Dr. GRPO: un kernel 2,2× más rápido en test, 3× más lento integrado

Este artículo describe el proceso de construir, desde cero, un bucle de entrenamiento de aprendizaje por refuerzo (RL) para modelos de lenguaje grandes, aplicándolo al algoritmo Dr. GRPO sobre el modelo Qwen2.5-0.5B-Instruct y la tarea GSM8K, con una sola GPU A10G. El punto de partida es una observa

04 Jun 2026

Cuándo ocurre fragmentación en el asignador de caché de CUDA

El asignador de caché de CUDA en PyTorch organiza la memoria de la GPU en dos niveles: segmentos (obtenidos mediante cudaMalloc) y bloques (subdivisiones dentro de los segmentos). Aunque la abstracción promete un manejo simple de memoria (asignar reduce la disponible, liberar la aumenta), la impleme

01 Jun 2026

Stanford CS336: un curso para construir un modelo de lenguaje desde cero

Stanford, una de las universidades más prestigiosas del mundo en ciencias de la computación, ha puesto en marcha el curso CS336, una asignatura singular que propone a los estudiantes construir un modelo de lenguaje de gran tamaño (LLM) desde cero, replicando el espíritu de los legendarios cursos de

23 May 2026

Optimizar deep learning desde principios fundamentales para maximizar la eficiencia GPU.

La optimización del rendimiento en modelos de aprendizaje profundo a menudo se reduce a una colección de trucos ad-hoc sin fundamento, como instalar versiones específicas de PyTorch o usar operaciones in-place. Sin embargo, para lograr un rendimiento óptimo y sostenible, es crucial entender los prin

20 May 2026

MiniMax M2.7 supera pruebas en proyectos reales de codificación

El desarrollador Andrey Lukyanenko probó el modelo de inteligencia artificial MiniMax M2.7 en tres flujos de trabajo reales de codificación a través de API, comparándolo con Claude Opus 4.7. Las pruebas incluyeron refactorización de un proyecto PyTorch existente, redacción de notas técnicas para una

19 May 2026

PyTorch lanza herramienta interactiva para explorar su ecosistema de herramientas

El PyTorch Landscape es una plataforma web interactiva desarrollada por la PyTorch Foundation que funciona como un catálogo visual y organizado de todas las herramientas, bibliotecas, proyectos y recursos que conforman el ecosistema PyTorch. Este landscape permite a desarrolladores, investigadores y

16 May 2026

Librería PyTorch permite analizar Hessian de redes neuronales grandes sin alta memoria

Un nuevo módulo de Python llamado 'hessian-eigenthings' permite analizar la matriz Hessian de redes neuronales grandes sin requerir memoria cuadrática. Desarrollado por Noah Golmant en colaboración con investigadores de UC Berkeley, esta biblioteca calcula la eigendecomposición del Hessian usando mé

23 Apr 2026

Google facilita PyTorch en TPUs con TorchTPU

Google ha anunciado el lanzamiento de TorchTPU, una nueva herramienta que permite a los desarrolladores utilizar de forma nativa y eficiente PyTorch en sus Tensor Processing Units (TPUs). TorchTPU aborda la creciente complejidad de construir modelos de IA a gran escala, que ahora requieren sistemas

20 Apr 2026

Trellis-2: Modelado 3D ahora en Macs Apple Silicon

Microsoft's vanguardia imagen-a-modelo 3D, TRELLIS.2, puede ahora ejecutarse de forma nativa en Macs con Apple Silicon sin necesidad de una GPU NVIDIA, gracias a una adaptación desarrollada por Shivampkumar y publicada en GitHub. Este desarrollo significativo aprovecha PyTorch MPS, permitiendo a los

19 Apr 2026

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

07 Apr 2026

Atención Híbrida: Acelera modelos de lenguaje

El proyecto presentado explora una nueva arquitectura de atención llamada 'Atención Híbrida' para modelos de lenguaje, con un enfoque particular en la generación de código Rust. El objetivo principal es acelerar significativamente la inferencia sin comprometer la calidad del modelo. Tradicionalmente

31 Mar 2026

Google mejora su modelo de predicción de series temporales

Google Research ha lanzado TimesFM 2.5, una versión mejorada de su modelo de predicción de series temporales. El modelo, disponible en GitHub, se basa en una arquitectura 'decoder-only' y está diseñado para ofrecer pronósticos más precisos y eficientes. TimesFM 2.5 reduce el número de parámetros de

22 Mar 2026

NumKong: Biblioteca Numérica de Alto Rendimiento

Ash Vardanian ha anunciado el relanzamiento de su proyecto SimSIMD bajo el nuevo nombre NumKong, una biblioteca de computación numérica de alto rendimiento. NumKong abarca aproximadamente 200.000 líneas de código y documentación en siete lenguajes de programación, ofreciendo una colección comparable

11 Mar 2026

IA optimiza GPUs: nuevo agente agiliza el rendimiento

RightNow AI ha presentado AutoKernel, un agente de inteligencia artificial que automatiza la optimización de kernels de GPU, inspirándose en el trabajo de autoresearch de Andrej Karpathy. AutoKernel toma cualquier modelo PyTorch, identifica los kernels de cuello de botella, los optimiza de forma aut

10 Mar 2026

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

04 Mar 2026

CPU innovadora opera dentro de una GPU

Investigadores han desarrollado una CPU innovadora que opera completamente dentro de una GPU, eliminando la necesidad de interacción con la CPU principal del sistema. Este prototipo, denominado NeuralCPU, ejecuta instrucciones ARM64 reales y utiliza tensores de PyTorch para almacenar registros, memo

03 Mar 2026

Talos: Nuevo Hardware Acelera Redes Neuronales

Un equipo de ingenieros ha desarrollado 'Talos', un acelerador de hardware personalizado basado en FPGA diseñado para ejecutar redes neuronales convolucionales (CNN) con una eficiencia extrema. A diferencia de las implementaciones de software tradicionales, Talos elimina la sobrecarga de tiempo de e

03 Mar 2026

Redes neuronales: Lean busca mayor seguridad

El auge de las redes neuronales en aplicaciones críticas, como sistemas de seguridad y control, ha revelado una brecha preocupante: la verificación y el análisis de estas redes a menudo se realizan *fuera* del entorno de programación donde se definen y ejecutan. Esta separación crea una desconexión

16 Feb 2026

PyTorch: guía esencial para aprendizaje profundo

Este artículo introduce PyTorch, un framework de aprendizaje profundo de código abierto desarrollado originalmente por Meta AI y ahora parte de la Linux Foundation. PyTorch es fundamental para el desarrollo de modelos de machine learning, y su comprensión es crucial para cualquier persona que trabaj

05 Feb 2026

Owning a $5M data center

Comma.ai, una empresa de conducción autónoma, ha publicado un artículo detallando cómo opera su propio centro de datos de 5 millones de dólares, en lugar de depender de servicios en la nube. Argumentan que tener control sobre su propia infraestructura de computación fomenta una mejor ingeniería, inc