PyTorch es una biblioteca de aprendizaje automático de código abierto basada en la biblioteca de Torch, utilizado para aplicaciones como visión artificial y procesamiento de lenguajes naturales, principalmente desarrollado por el Laboratorio de Investigación de Inteligencia Artificial de Facebook (FAIR). Es un software libre y de código abierto liberado bajo la Licencia Modificada de BSD. A pesar de que la interfaz de Python está más pulida y es el foco principal del desarrollo, PyTorch también

Ver en Wikipedia

Noticias que mencionan pytorch

Eliminar las burbujas de GPU en la inferencia de IA: pipelined decoding

El equipo de Moondream analiza en profundidad un problema frecuente en la inferencia de modelos de IA: las llamadas burbujas de GPU, periodos en los que el procesador gráfico permanece inactivo porque la CPU aún no le ha indicado la siguiente tarea. El artículo explica por qué aparecen durante el bu

Anatomía del bucle de entrenamiento en PyTorch: cada línea y sus errores

Construir un bucle de entrenamiento en PyTorch parece sencillo, pero colocar cada instrucción en el orden correcto resulta sorprendentemente frágil: los entrenamientos fallan al converger, arrojan resultados incorrectos o consumen memoria excesiva cuando una línea está mal ubicada. Este artículo des

¿Necesitamos un nuevo sistema de build para Linux embebido?

Tras dos décadas construyendo productos con Linux embebido, el autor plantea que los sistemas de build clásicos —Buildroot y, sobre todo, Yocto/OpenEmbedded— ya no encajan con la realidad actual de los dispositivos de borde. Estos sistemas nacieron cuando los ARM eran lentos y solo tenía sentido com

Sufijos de forma: una convención para nombrar tensores con claridad

Character.AI ha compartido una convención interna, vigente desde 2022, que añade al nombre de cada tensor un sufijo con las letras de sus dimensiones. El objetivo es que cualquier variable revele de un vistazo la forma del tensor con el que se trabaja, sin necesidad de rastrear el código. La regla

Cuantización entera: fundamentos, unidades MAC y errores de cuantización

La cuantización entera se ha convertido en una técnica clave para ejecutar modelos de lenguaje grandes en hardware de consumo: lo que hace apenas unos años requería GPU de varios gigabytes para un modelo de 7.000 millones de parámetros en INT8, hoy permite cargar un modelo de 70.000 millones en 4 bi

OpenCL y sus alternativas: lecciones de la democratización fallida

El artículo, quinta entrega de la serie "Democratizing AI Compute", escrito por Chris Lattner (cofundador de Modular), analiza por qué OpenCL y otros modelos de programación de GPU portátiles (como SYCL, oneAPI) fracasaron en convertirse en plataformas dominantes para la inteligencia artificial, a p

Función de activación Softmax: qué es y cómo se implementa

La función Softmax es una de las piezas fundamentales en las redes neuronales modernas, especialmente en tareas de clasificación multiclase. Se trata de una función matemática no lineal que convierte un vector de puntuaciones brutas, denominadas logits y que pueden tomar cualquier valor real positiv

Cómo implementar operaciones personalizadas en PyTorch con C++ y CUDA

Esta entrada del blog explica cómo implementar operaciones personalizadas en PyTorch utilizando C++ y CUDA, y cómo integrarlas tanto en modelos de PyTorch como en programas de inferencia compilados con AOTInductor. El ejemplo guía es una convolución identidad mínima que ilustra el ciclo completo: de

Dr. GRPO: un kernel 2,2× más rápido en test, 3× más lento integrado

Este artículo describe el proceso de construir, desde cero, un bucle de entrenamiento de aprendizaje por refuerzo (RL) para modelos de lenguaje grandes, aplicándolo al algoritmo Dr. GRPO sobre el modelo Qwen2.5-0.5B-Instruct y la tarea GSM8K, con una sola GPU A10G. El punto de partida es una observa

Cuándo ocurre fragmentación en el asignador de caché de CUDA

El asignador de caché de CUDA en PyTorch organiza la memoria de la GPU en dos niveles: segmentos (obtenidos mediante cudaMalloc) y bloques (subdivisiones dentro de los segmentos). Aunque la abstracción promete un manejo simple de memoria (asignar reduce la disponible, liberar la aumenta), la impleme

Stanford CS336: un curso para construir un modelo de lenguaje desde cero

Stanford, una de las universidades más prestigiosas del mundo en ciencias de la computación, ha puesto en marcha el curso CS336, una asignatura singular que propone a los estudiantes construir un modelo de lenguaje de gran tamaño (LLM) desde cero, replicando el espíritu de los legendarios cursos de

Jmaczan lanza tiny-vllm, motor educativo de inferencia LLM

El desarrollador Jmaczan ha lanzado en GitHub 'tiny-vllm', un motor de inferencia de alto rendimiento para modelos de lenguaje grande (LLM) desarrollado en C++ y CUDA. Esta iniciativa se presenta como una versión más compacta y educativa de vLLM, diseñada para derivar desde cero las matemáticas y ar

Estudio: GPUs aceleran matrices con datos predecibles en lugar de aleatorios

Un estudio reciente revela que las multiplicaciones de matrices en GPUs, específicamente en la Nvidia A100, se ejecutan más rápido cuando se utilizan datos 'predecibles' como ceros en lugar de datos aleatorios. Esta anomalía desafía la creencia tradicional de que el rendimiento de las operaciones de

MiniMax M2.7 supera pruebas en proyectos reales de codificación

El desarrollador Andrey Lukyanenko probó el modelo de inteligencia artificial MiniMax M2.7 en tres flujos de trabajo reales de codificación a través de API, comparándolo con Claude Opus 4.7. Las pruebas incluyeron refactorización de un proyecto PyTorch existente, redacción de notas técnicas para una

La IA transforma la selección de lenguajes de programación en 2026

La inteligencia artificial está transformando radicalmente la selección de lenguajes de programación en la industria tecnológica. Hace dos años, los modelos de IA apenas podían escribir código en lenguajes complejos como Rust sin errores; para abril de 2026, Claude Opus 4.7, GPT-5.5, Gemini 3.1 y De

Swift alcanza Teraflops entrenando LLMs en Apple Silicon

Este artículo explora cómo optimizar operaciones de multiplicación de matrices en Swift para entrenar Large Language Models (LLMs) en Apple Silicon, buscando alcanzar rendimiento de Teraflop/s desde el punto de partida de Gigaflops. El autor, Matt Gallagher, toma como referencia la implementación ll

Entrena GPT en tu laptop: Taller práctico y accesible

Un desarrollador ha creado un taller práctico para permitir a usuarios entrenar modelos GPT en laptops, incluso sin experiencia previa en aprendizaje automático. Inspirado por el proyecto 'nanoGPT' de Andrej Karpathy, el taller simplifica el proceso, reduciendo el tamaño del modelo a aproximadamente

HN: Investigación de LLM pierde interés

Un análisis reciente realizado por Dylan Castillo revela una disminución en la presencia de investigaciones sobre modelos de lenguaje grandes (LLM) en Hacker News (HN), una plataforma popular entre programadores y entusiastas de la tecnología. Utilizando a Claude, un asistente de IA, Castillo rastre

Google facilita PyTorch en TPUs con TorchTPU

Google ha anunciado el lanzamiento de TorchTPU, una nueva herramienta que permite a los desarrolladores utilizar de forma nativa y eficiente PyTorch en sus Tensor Processing Units (TPUs). TorchTPU aborda la creciente complejidad de construir modelos de IA a gran escala, que ahora requieren sistemas

Trellis-2: Modelado 3D ahora en Macs Apple Silicon

Microsoft's vanguardia imagen-a-modelo 3D, TRELLIS.2, puede ahora ejecutarse de forma nativa en Macs con Apple Silicon sin necesidad de una GPU NVIDIA, gracias a una adaptación desarrollada por Shivampkumar y publicada en GitHub. Este desarrollo significativo aprovecha PyTorch MPS, permitiendo a los

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

Deja la IA: Ingeniero busca fundamentos en la programación

Un ingeniero de Aily Labs, empresa especializada en inteligencia artificial, ha decidido tomarse un descanso de la IA para enfocarse en la programación manual, residiendo actualmente en Brooklyn como parte de un “retiro de codificación”. Tras dos años trabajando en Aily Labs, desarrollando agentes d

Evolve optimiza renderizado con nueva tecnología

Este artículo de Evolve Benchmark detalla la evolución de su infraestructura para el procesamiento de redes neuronales (NN) en motores de renderizado, centrándose en la introducción y el uso de la tecnología Cooperative Vector en Vulkan y DirectX. Inicialmente, la empresa implementó su propia infrae

Construyen robot aspirador casero por menos de $500

Este artículo describe el proyecto RoboVac, donde dos personas construyeron un robot aspirador autónomo para su hogar, en lugar de comprar uno prefabricado. El objetivo era crear un robot funcional con un presupuesto de menos de 500 dólares y una duración de batería suficiente para una semana de lim

IA multimodal en Mac: nueva herramienta facilita el ajuste

Un nuevo toolkit llamado 'gemma-tuner-multimodal' permite a los usuarios afinar modelos Gemma de Google para tareas de inteligencia artificial multimodal (texto, imágenes y audio) directamente en Macs con Apple Silicon. La herramienta, desarrollada por Mattmireles y disponible en GitHub, elimina la

Atención Híbrida: Acelera modelos de lenguaje

El proyecto presentado explora una nueva arquitectura de atención llamada 'Atención Híbrida' para modelos de lenguaje, con un enfoque particular en la generación de código Rust. El objetivo principal es acelerar significativamente la inferencia sin comprometer la calidad del modelo. Tradicionalmente

Google mejora su modelo de predicción de series temporales

Google Research ha lanzado TimesFM 2.5, una versión mejorada de su modelo de predicción de series temporales. El modelo, disponible en GitHub, se basa en una arquitectura 'decoder-only' y está diseñado para ofrecer pronósticos más precisos y eficientes. TimesFM 2.5 reduce el número de parámetros de

IA en chips: CERN filtra datos del LHC en tiempo real

El CERN, el laboratorio europeo de física de partículas, está utilizando modelos de inteligencia artificial (IA) extremadamente pequeños, grabados directamente en chips de silicio, para filtrar en tiempo real los enormes volúmenes de datos generados por el Gran Colisionador de Hadrones (LHC). El LHC

tinygrad impulsa el aprendizaje profundo con $5M y tinybox

La empresa tinygrad ha recibido una financiación de 5 millones de dólares y ha lanzado 'tinybox', un potente ordenador diseñado para el aprendizaje profundo. Tinygrad, un framework de redes neuronales de rápido crecimiento, se destaca por su simplicidad y eficiencia. La nueva financiación permitirá

AtnRes: Nueva técnica optimiza modelos de lenguaje

Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación u

Karaoke IA: Nightingale mejora tu experiencia cantando

Nightingale, una nueva aplicación de karaoke, ha lanzado una versión innovadora que utiliza inteligencia artificial para ofrecer una experiencia de canto mejorada. Disponible para Linux, macOS y Windows, la aplicación separa las voces de la instrumentación de las canciones utilizando modelos como UV

IA optimiza GPUs: nuevo agente agiliza el rendimiento

RightNow AI ha presentado AutoKernel, un agente de inteligencia artificial que automatiza la optimización de kernels de GPU, inspirándose en el trabajo de autoresearch de Andrej Karpathy. AutoKernel toma cualquier modelo PyTorch, identifica los kernels de cuello de botella, los optimiza de forma aut

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

Python 3.15: Importaciones 'lazy' Resuelven Problemas de Rendimiento

Python está introduciendo una nueva característica, `lazy`, en su versión 3.15, que permite la carga diferida de módulos, resolviendo un problema de rendimiento que afectaba a empresas como Instagram y Hudson River Trading. Estas compañías, enfrentando tiempos de inicio lentos en sus herramientas de

IA investiga y optimiza modelos de lenguaje sola

Este repositorio de GitHub, creado por Andrej Karpathy, presenta un enfoque innovador para la investigación en inteligencia artificial: la 'autoresearch'. En lugar de la investigación tradicional, donde humanos modifican el código, este sistema permite a agentes de IA experimentar y optimizar modelo

Tensor Spy: inspecciona tensores directamente en tu navegador

Un nuevo software llamado Tensor Spy ha sido lanzado para facilitar la inspección y visualización de archivos de tensores en navegadores web. La herramienta, disponible ahora, permite a los usuarios cargar y revisar archivos .npy, .npz, .pt y .pth, formatos comunes para almacenar datos de tensores u

IA al estilo cerebro: ¿fin de las matrices?

Investigadores están reevaluando la dependencia de las redes neuronales artificiales en las matemáticas matriciales, inspirándose en cómo funciona el cerebro humano. El artículo explora cómo el cerebro procesa la información a través de una combinación de percepción de arriba hacia abajo (predicción

CPU innovadora opera dentro de una GPU

Investigadores han desarrollado una CPU innovadora que opera completamente dentro de una GPU, eliminando la necesidad de interacción con la CPU principal del sistema. Este prototipo, denominado NeuralCPU, ejecuta instrucciones ARM64 reales y utiliza tensores de PyTorch para almacenar registros, memo

Talos: Nuevo Hardware Acelera Redes Neuronales

Un equipo de ingenieros ha desarrollado 'Talos', un acelerador de hardware personalizado basado en FPGA diseñado para ejecutar redes neuronales convolucionales (CNN) con una eficiencia extrema. A diferencia de las implementaciones de software tradicionales, Talos elimina la sobrecarga de tiempo de e

Redes neuronales: Lean busca mayor seguridad

El auge de las redes neuronales en aplicaciones críticas, como sistemas de seguridad y control, ha revelado una brecha preocupante: la verificación y el análisis de estas redes a menudo se realizan *fuera* del entorno de programación donde se definen y ejecutan. Esta separación crea una desconexión

Joven indio sorprende con IA y juego de Doom con QR

Un joven desarrollador indio de 19 años, Kuber Mehta, está generando gran atención internacional por sus innovadoras creaciones en inteligencia artificial y desarrollo web. Destacado por *The Independent* y otros medios como *PC Gamer*, *Yahoo News* y *Boing Boing*, Mehta ha desarrollado una amplia

Python y Monorepos: Una Nueva Era para Desarrolladores

Este artículo explora el concepto de 'monorepos' en el contexto del desarrollo de Python, un enfoque que organiza múltiples proyectos relacionados en un único repositorio. Tradicionalmente, los monorepos eran difíciles de mantener debido a la complejidad de gestionar dependencias y la necesidad de h

Jane Street busca mentes brillantes con puzzle de IA

Jane Street, una firma de trading cuantitativo, ha lanzado un desafío de aprendizaje automático (ML) único para reclutar expertos en interpretación de redes neuronales. El puzzle, disponible en Hugging Face, presenta una red neuronal con una especificación completa, incluyendo sus pesos, desafiando

C++ acelera reconocimiento de voz con modelo Parakeet

Un equipo de desarrolladores ha creado una implementación en C++ de los modelos de reconocimiento de voz Parakeet de Nvidia, ofreciendo una mejora significativa en la velocidad para su ejecución en dispositivos. El proyecto, alojado en GitHub, utiliza la biblioteca de tensores ligera axiom, que incl

SciPy: Nueva herramienta para correlaciones complejas

La función `scipy.stats.chatterjeexi` en SciPy calcula el coeficiente de correlación xi y realiza una prueba de independencia entre dos conjuntos de datos. Es una herramienta valiosa porque, a diferencia de las correlaciones de Pearson o Spearman, es efectiva incluso cuando la relación entre las var

IA facilita verificación de código Python

Investigadores han desarrollado 'a3-python', una herramienta de verificación de programas para Python impulsada por inteligencia artificial. Python, a pesar de su amplio uso tanto por humanos como por modelos de lenguaje grandes (LLMs), ha sido históricamente difícil de verificar formalmente. El equ

IA: Script Snap valida contenido técnico y evita errores

Una nueva herramienta llamada Script Snap ha sido lanzada para validar contenido técnico generado por inteligencia artificial, buscando evitar errores y alucinaciones comunes en herramientas de IA genéricas. La plataforma, presentada en script-snap.com, se enfoca en asegurar la precisión de términos

GPT en C: modelo más rápido para dispositivos

Un desarrollador ha creado una implementación en lenguaje C99 de un modelo GPT de estilo 'character-level', denominado MicroGPT-C, que permite un entrenamiento y generación de texto significativamente más rápidos que las implementaciones en Python. El proyecto, publicado en GitHub, busca ofrecer una

PyTorch: guía esencial para aprendizaje profundo

Este artículo introduce PyTorch, un framework de aprendizaje profundo de código abierto desarrollado originalmente por Meta AI y ahora parte de la Linux Foundation. PyTorch es fundamental para el desarrollo de modelos de machine learning, y su comprensión es crucial para cualquier persona que trabaj

Ocr sin servidor: 40 líneas de código lo hacen posible

Un desarrollador ha creado un sistema de Reconocimiento Óptico de Caracteres (OCR) sin servidor utilizando un modelo de código abierto, DeepSeek OCR, en tan solo 40 líneas de código. La solución, implementada a través de la plataforma Modal, permite procesar documentos PDF, incluso aquellos con nota

Heretic: herramienta elimina censura de IA automáticamente

Un nuevo conjunto de herramientas llamado Heretic está automatizando la eliminación de restricciones de seguridad (censura) de modelos de lenguaje basados en transformadores, sin necesidad de costosos procesos de reentrenamiento. Desarrollado por P-E-W y disponible en GitHub, Heretic combina técnica

Copapy: Python redefine la computación embebida

Un nuevo framework de Python llamado Copapy ha sido desarrollado para facilitar la computación en tiempo real determinista y de baja latencia en sistemas embebidos. Inspirado en frameworks de IA como PyTorch y JAX, Copapy busca ofrecer la flexibilidad de Python con el rendimiento de código máquina o

ACE-Step: Música IA de Código Abierto Desafía a la Industria

Un equipo de investigadores ha presentado ACE-Step v1.5, un modelo de música de código abierto que rivaliza con alternativas comerciales y puede ejecutarse en hardware de consumo. El modelo, disponible en GitHub, Hugging Face y ModelScope, destaca por su eficiencia, generando canciones completas en

Owning a $5M data center

Comma.ai, una empresa de conducción autónoma, ha publicado un artículo detallando cómo opera su propio centro de datos de 5 millones de dólares, en lugar de depender de servicios en la nube. Argumentan que tener control sobre su propia infraestructura de computación fomenta una mejor ingeniería, inc