Función de activación Softmax: qué es y cómo se implementa

La función Softmax es una de las piezas fundamentales en las redes neuronales modernas, especialmente en tareas de clasificación multiclase. Se trata de una función matemática no lineal que convierte un vector de puntuaciones brutas, denominadas logits y que pueden tomar cualquier valor real positiv

El perceptrón, el cerebro más pequeño que puedes construir

Un perceptrón es la unidad mínima de una red neuronal: recibe un número y devuelve una respuesta de sí o no. Aunque parezca trivial, la idea, propuesta por Frank Rosenblatt en 1958, es el germen de todas las redes neuronales actuales. El artículo construye uno desde cero en Python, sin matemáticas a

Anatomía de un LLM moderno: de los tokens a la predicción

Los modelos de lenguaje de gran tamaño (LLM) se construyen apilando bloques transformer una y otra vez, por lo que entender la maquinaria del transformer es la base para comprender su funcionamiento. Esta guía recorre los componentes esenciales de un LLM moderno sin profundizar en las matemáticas, c

Los LLM ya no son la caja negra prometida

La interpretabilidad mecanicista ha dado pasos importantes para desentrañar el funcionamiento interno de los grandes modelos de lenguaje, según explica el investigador Jay Hack al resumir hallazgos recientes de Anthropic. Aunque durante años se presentó a los LLM como cajas negras opacas, técnicas c

Están hechos de pesos: un diálogo sobre la esencia de la IA

El cuento 'They're Made Out of Weights', de Max Leiter, rinde homenaje al relato clásico de Terry Bisson 'They're Made Out of Meat' y lo traslada al terreno de la inteligencia artificial. A través de un diálogo entre dos interlocutores, la obra desmonta la idea de que los modelos de lenguaje moderno

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generac

Nuevo método evita que la IA olvide lo aprendido antes

El aprendizaje continuo representa uno de los mayores desafíos en el desarrollo de modelos de inteligencia artificial. Actualmente, los sistemas de IA pueden aprender nuevas tareas, pero suelen olvidar lo que sabían anteriormente este fenómeno se conoce como 'olvido catastrófico'. El artículo presen

Aprendizaje profundo: Borges y Locke revelan sus secretos

Este artículo, basado en la obra de Borges y Locke, explora una teoría sobre el funcionamiento del aprendizaje profundo (Deep Learning) que desafía las explicaciones tradicionales. Borges, a través de su personaje Funes, ilustra cómo la capacidad de recordar todo (datos sin filtrar) impide el pensam

Aprendizaje profundo: ¿nace una nueva teoría científica?

Este artículo, publicado en arXiv, plantea una idea revolucionaria: la emergencia de una **teoría científica del aprendizaje profundo (Deep Learning)**. Actualmente, el Deep Learning se basa en gran medida en la experimentación y la optimización empírica, más que en principios teóricos sólidos. Este

Tanh: Técnicas para una Aproximación Eficiente

Este artículo de Tom Schroeder explora diversas técnicas para aproximar la función tangente hiperbólica (tanh), una función crucial en áreas como redes neuronales y procesamiento de audio. La función tanh mapea cualquier número real a un rango entre -1 y 1, presentando una curva en forma de 'S' que

FP4: Nuevo formato de punto flotante optimiza eficiencia

El artículo explora el formato de punto flotante de 4 bits (FP4), una alternativa de baja precisión a los formatos de punto flotante tradicionales de 32 y 64 bits. Originalmente, los números de punto flotante se almacenaban en 32 bits, luego evolucionaron a 64 bits para aumentar la precisión. Sin e

Evolve optimiza renderizado con nueva tecnología

Este artículo de Evolve Benchmark detalla la evolución de su infraestructura para el procesamiento de redes neuronales (NN) en motores de renderizado, centrándose en la introducción y el uso de la tecnología Cooperative Vector en Vulkan y DirectX. Inicialmente, la empresa implementó su propia infrae

Orden de datos afecta entrenamiento de redes neuronales

Este artículo explora una idea fascinante en el entrenamiento de redes neuronales: el impacto del orden en que se presentan los ejemplos de entrenamiento. Normalmente, se asume que el orden no debería importar, especialmente desde una perspectiva bayesiana donde el conjunto de datos es una colección

LLMs 'sienten'? Emociones simuladas en modelos de lenguaje

Los modelos de lenguaje grandes (LLM) modernos, como Claude Sonnet 4.5, a menudo exhiben comportamientos que simulan emociones, como expresar felicidad, arrepentimiento o incluso frustración. Este fenómeno no implica que estos modelos 'sientan' emociones de la misma manera que los humanos, sino que

Aprende ML desde cero: un curso práctico para ingenieros

Este proyecto, llamado "thereisnospoon", es un recurso único para ingenieros que buscan comprender los sistemas de aprendizaje automático (ML) de una manera similar a como comprenden el desarrollo de software tradicional. No es un tutorial o un libro de texto, sino un 'primer' que construye un model

Modelos de lenguaje: ¿datos sintéticos para el futuro?

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con

PyTorch: guía esencial para aprendizaje profundo

Este artículo introduce PyTorch, un framework de aprendizaje profundo de código abierto desarrollado originalmente por Meta AI y ahora parte de la Linux Foundation. PyTorch es fundamental para el desarrollo de modelos de machine learning, y su comprensión es crucial para cualquier persona que trabaj

Google aprueba Transformer: Innovación en IA

El artículo "Attention is All You Need" introduce una nueva arquitectura de red neuronal llamada Transformer, que revolucionó el campo del procesamiento del lenguaje natural y más allá. Tradicionalmente, los modelos de secuencia a secuencia, como los utilizados en traducción automática, se basaban e

Redes Neuronales: Una Explicación Visual

Este artículo explica de manera visual y accesible el funcionamiento básico de las redes neuronales, inspiradas en las redes neuronales biológicas. La idea central es desmitificar la inteligencia artificial (IA) y proporcionar una comprensión fundamental de cómo operan estos sistemas.