Noticias que mencionan Adam

Leyes de escalado en aprendizaje profundo: guía técnica

Las leyes de escalado son uno de los hallazgos empíricos más relevantes del aprendizaje profundo: describen cómo la pérdida de entrenamiento disminuye de forma predecible, siguiendo una curva de potencia, al aumentar el tamaño del modelo (N), el volumen de datos (D) y el cómputo (C). Su utilidad prá

Reflexionar para optimizar: descenso por gradiente proyectado sobre el simplex

Este artículo explica, de forma divulgativa y con un caso práctico, dos enfoques para optimizar una función no convexa cuyas variables deben ser un vector de probabilidades válido (no negativas y normalizadas). El primer enfoque, muy habitual en aprendizaje automático, consiste en reparametrizar el

Anatomía del bucle de entrenamiento en PyTorch: cada línea y sus errores

Construir un bucle de entrenamiento en PyTorch parece sencillo, pero colocar cada instrucción en el orden correcto resulta sorprendentemente frágil: los entrenamientos fallan al converger, arrojan resultados incorrectos o consumen memoria excesiva cuando una línea está mal ubicada. Este artículo des

Una operación binaria genera funciones matemáticas clave

Este artículo presenta un descubrimiento sorprendente en el campo de la computación simbólica: la posibilidad de generar todas las funciones elementales (como seno, coseno, raíz cuadrada, logaritmo, etc.) utilizando una única operación binaria. Tradicionalmente, la computación de estas funciones req

Orden de datos afecta entrenamiento de redes neuronales

Este artículo explora una idea fascinante en el entrenamiento de redes neuronales: el impacto del orden en que se presentan los ejemplos de entrenamiento. Normalmente, se asume que el orden no debería importar, especialmente desde una perspectiva bayesiana donde el conjunto de datos es una colección

ia en retro: transformer corre en ordenador vintage

Un desarrollador ha logrado ejecutar un modelo Transformer de una sola capa en un ordenador vintage PDP-11, un hito que demuestra la capacidad de hardware antiguo para realizar tareas de inteligencia artificial complejas. El proyecto, denominado 'ATTN/11', es una continuación de trabajos anteriores

IA acelera entrenamiento neuronal con 16 GPUs

Investigadores han logrado mejorar significativamente el entrenamiento de redes neuronales utilizando un agente de inteligencia artificial (IA) y un clúster de 16 GPUs, gracias a la herramienta SkyPilot. El agente, basado en Claude Code y conectado a la plataforma Autoresearch de Andrej Karpathy, ej

Ingeniero simplifica modelos GPT a 200 líneas de código

Un ingeniero ha simplificado significativamente los modelos de lenguaje grandes (LLM) como GPT, creando una versión funcional en tan solo 200 líneas de código Python. Esta hazaña, denominada 'microgpt', representa un hito en la accesibilidad y comprensión de la tecnología detrás de herramientas como

Modelos IA más pequeños logran cálculo complejo

Investigadores han logrado reducir significativamente el tamaño de los modelos transformer capaces de realizar la suma de dos números de 10 dígitos con una precisión superior al 99%, un desafío conocido como 'AdderBoard'. Inicialmente, modelos generados por Claude Code y Codex requerían 6.080 y 1.64

GPT en C: modelo más rápido para dispositivos

Un desarrollador ha creado una implementación en lenguaje C99 de un modelo GPT de estilo 'character-level', denominado MicroGPT-C, que permite un entrenamiento y generación de texto significativamente más rápidos que las implementaciones en Python. El proyecto, publicado en GitHub, busca ofrecer una