GPT-2, el modelo que OpenAI consideró demasiado peligroso para publicar

En febrero de 2019, OpenAI presentó GPT-2, un modelo de lenguaje basado en el decodificador del transformer que suponía un escalado directo de GPT-1: 1.500 millones de parámetros —diez veces más que su predecesor—, entrenado sobre 40 GB de texto web y entrenado en 48 bloques de decodificador con una

Speculative KV coding: compresión sin pérdidas de la caché KV de LLM

Speculative KV coding es un nuevo método para reducir el tamaño de la caché de clave-valor (KV cache) de los modelos de lenguaje grandes (LLM) hasta aproximadamente cuatro veces, sin pérdida de información, partiendo de una caché ya comprimida con pérdida en fp8. El contexto de los LLM crece de for

Anatomía de un LLM moderno: de los tokens a la predicción

Los modelos de lenguaje de gran tamaño (LLM) se construyen apilando bloques transformer una y otra vez, por lo que entender la maquinaria del transformer es la base para comprender su funcionamiento. Esta guía recorre los componentes esenciales de un LLM moderno sin profundizar en las matemáticas, c

Stanford CS336: un curso para construir un modelo de lenguaje desde cero

Stanford, una de las universidades más prestigiosas del mundo en ciencias de la computación, ha puesto en marcha el curso CS336, una asignatura singular que propone a los estudiantes construir un modelo de lenguaje de gran tamaño (LLM) desde cero, replicando el espíritu de los legendarios cursos de

CVPR 2026: desmontan las piezas estándar del aprendizaje profundo

La edición 2026 de CVPR ha puesto en tela de juicio los componentes estándar del aprendizaje profundo. Cinco trabajos clave atacan desde la periferia hasta el núcleo de las arquitecturas actuales. BinaryAttention demuestra que la atención con cuantización de 1 bit es más rápida que FlashAttention2 y

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generac

Optimización de candidatos: el punto donde los fármacos triumfan o fracasan

La optimización de candidatos (lead optimisation) es una etapa crítica en el diseño de fármacos donde se toma una molécula que funciona parcialmente y se busca mejorar su rendimiento para que sea realmente efectiva. Este proceso representa el punto donde muchas campañas de diseñotriunfan o fracasan

Redes neuronales y criptografía: ¿una conexión inesperada?

Este artículo explora una sorprendente similitud entre redes neuronales y cifrados criptográficos, dos campos que a primera vista parecen no tener nada en común. Mientras que las redes neuronales aprenden patrones para generar texto y los cifrados protegen la información, sus algoritmos subyacentes

ia en retro: transformer corre en ordenador vintage

Un desarrollador ha logrado ejecutar un modelo Transformer de una sola capa en un ordenador vintage PDP-11, un hito que demuestra la capacidad de hardware antiguo para realizar tareas de inteligencia artificial complejas. El proyecto, denominado 'ATTN/11', es una continuación de trabajos anteriores

IA sorprende: modelo líder sin ajustes

En un giro inesperado en el mundo de la inteligencia artificial, un investigador conocido como 'dnhkng' ha logrado colocar su modelo, 'RYS-XLarge', en la cima del Hugging Face Open LLM Leaderboard, sin modificar ni un solo peso del modelo original. La hazaña, lograda a mediados de 2024, implica dupl

Modelos IA más pequeños logran cálculo complejo

Investigadores han logrado reducir significativamente el tamaño de los modelos transformer capaces de realizar la suma de dos números de 10 dígitos con una precisión superior al 99%, un desafío conocido como 'AdderBoard'. Inicialmente, modelos generados por Claude Code y Codex requerían 6.080 y 1.64

LiDAR: Datos de onda revelan detalles cruciales

El LiDAR (Light Detection and Ranging) se ha convertido en una tecnología esencial para la conducción autónoma, proporcionando escaneos 3D de alta resolución que permiten una comprensión precisa del entorno. Tradicionalmente, los sensores LiDAR miden la intensidad de la luz láser reflejada en funció

Google aprueba Transformer: Innovación en IA

El artículo "Attention is All You Need" introduce una nueva arquitectura de red neuronal llamada Transformer, que revolucionó el campo del procesamiento del lenguaje natural y más allá. Tradicionalmente, los modelos de secuencia a secuencia, como los utilizados en traducción automática, se basaban e