transformer - ojeo.com

11 Jun 2026

El mecanismo de atención de los transformers carece de control ejecutivo, según un estudio con la tarea Stroop

Una investigación publicada en PNAS Nexus examina una limitación estructural de los modelos de lenguaje basados en la arquitectura transformer: la ausencia de un mecanismo explícito de control ejecutivo de la atención, la función que en el cerebro humano permite resolver conflictos entre estímulos c

09 Jun 2026

GPT-2, el modelo que OpenAI consideró demasiado peligroso para publicar

En febrero de 2019, OpenAI presentó GPT-2, un modelo de lenguaje basado en el decodificador del transformer que suponía un escalado directo de GPT-1: 1.500 millones de parámetros —diez veces más que su predecesor—, entrenado sobre 40 GB de texto web y entrenado en 48 bloques de decodificador con una

07 Jun 2026

Speculative KV coding: compresión sin pérdidas de la caché KV de LLM

Speculative KV coding es un nuevo método para reducir el tamaño de la caché de clave-valor (KV cache) de los modelos de lenguaje grandes (LLM) hasta aproximadamente cuatro veces, sin pérdida de información, partiendo de una caché ya comprimida con pérdida en fp8. El contexto de los LLM crece de for

06 Jun 2026

Anatomía de un LLM moderno: de los tokens a la predicción

Los modelos de lenguaje de gran tamaño (LLM) se construyen apilando bloques transformer una y otra vez, por lo que entender la maquinaria del transformer es la base para comprender su funcionamiento. Esta guía recorre los componentes esenciales de un LLM moderno sin profundizar en las matemáticas, c

01 Jun 2026

Stanford CS336: un curso para construir un modelo de lenguaje desde cero

Stanford, una de las universidades más prestigiosas del mundo en ciencias de la computación, ha puesto en marcha el curso CS336, una asignatura singular que propone a los estudiantes construir un modelo de lenguaje de gran tamaño (LLM) desde cero, replicando el espíritu de los legendarios cursos de

01 Jun 2026

CVPR 2026: desmontan las piezas estándar del aprendizaje profundo

La edición 2026 de CVPR ha puesto en tela de juicio los componentes estándar del aprendizaje profundo. Cinco trabajos clave atacan desde la periferia hasta el núcleo de las arquitecturas actuales. BinaryAttention demuestra que la atención con cuantización de 1 bit es más rápida que FlashAttention2 y

20 May 2026

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generac

13 May 2026

Optimización de candidatos: el punto donde los fármacos triumfan o fracasan

La optimización de candidatos (lead optimisation) es una etapa crítica en el diseño de fármacos donde se toma una molécula que funciona parcialmente y se busca mejorar su rendimiento para que sea realmente efectiva. Este proceso representa el punto donde muchas campañas de diseñotriunfan o fracasan

04 May 2026

Redes neuronales y criptografía: ¿una conexión inesperada?

Este artículo explora una sorprendente similitud entre redes neuronales y cifrados criptográficos, dos campos que a primera vista parecen no tener nada en común. Mientras que las redes neuronales aprenden patrones para generar texto y los cifrados protegen la información, sus algoritmos subyacentes

28 Mar 2026

ia en retro: transformer corre en ordenador vintage

Un desarrollador ha logrado ejecutar un modelo Transformer de una sola capa en un ordenador vintage PDP-11, un hito que demuestra la capacidad de hardware antiguo para realizar tareas de inteligencia artificial complejas. El proyecto, denominado 'ATTN/11', es una continuación de trabajos anteriores

10 Mar 2026

IA sorprende: modelo líder sin ajustes

En un giro inesperado en el mundo de la inteligencia artificial, un investigador conocido como 'dnhkng' ha logrado colocar su modelo, 'RYS-XLarge', en la cima del Hugging Face Open LLM Leaderboard, sin modificar ni un solo peso del modelo original. La hazaña, lograda a mediados de 2024, implica dupl

28 Feb 2026

Modelos IA más pequeños logran cálculo complejo

Investigadores han logrado reducir significativamente el tamaño de los modelos transformer capaces de realizar la suma de dos números de 10 dígitos con una precisión superior al 99%, un desafío conocido como 'AdderBoard'. Inicialmente, modelos generados por Claude Code y Codex requerían 6.080 y 1.64

26 Feb 2026

LiDAR: Datos de onda revelan detalles cruciales

El LiDAR (Light Detection and Ranging) se ha convertido en una tecnología esencial para la conducción autónoma, proporcionando escaneos 3D de alta resolución que permiten una comprensión precisa del entorno. Tradicionalmente, los sensores LiDAR miden la intensidad de la luz láser reflejada en funció

06 Feb 2026

Google aprueba Transformer: Innovación en IA

El artículo "Attention is All You Need" introduce una nueva arquitectura de red neuronal llamada Transformer, que revolucionó el campo del procesamiento del lenguaje natural y más allá. Tradicionalmente, los modelos de secuencia a secuencia, como los utilizados en traducción automática, se basaban e