transformer

01 Jul 2026

Leyes de escalado en aprendizaje profundo: guía técnica

Las leyes de escalado son uno de los hallazgos empíricos más relevantes del aprendizaje profundo: describen cómo la pérdida de entrenamiento disminuye de forma predecible, siguiendo una curva de potencia, al aumentar el tamaño del modelo (N), el volumen de datos (D) y el cómputo (C). Su utilidad prá

11 Jun 2026

El mecanismo de atención de los transformers carece de control ejecutivo, según un estudio con la tarea Stroop

Una investigación publicada en PNAS Nexus examina una limitación estructural de los modelos de lenguaje basados en la arquitectura transformer: la ausencia de un mecanismo explícito de control ejecutivo de la atención, la función que en el cerebro humano permite resolver conflictos entre estímulos c

26 May 2026

Ia aprende a dormir para mejorar su memoria

Los modelos de lenguaje basados en Transformers han revolucionado la inteligencia artificial, pero enfrentan un cuello de botella crítico: su mecanismo de atención no escala eficientemente con el aumento de la longitud del contexto. Este artículo, titulado "Language Models Need Sleep", propone una s

22 May 2026

CODA optimiza Transformers al evitar mover datos a memoria global durante cálculos

CODA es una nueva abstracción de kernel GPU que revoluciona la forma de ejecutar los componentes no attention de los Transformers. El problema que resuelve es fundamental: mientras que las operaciones de multiplicación de matrices (GEMM) están altamente optimizadas y utilizan eficientemente la memor

20 May 2026

Investigación revela que LoRA регуляризует hacia pesos originales del modelo

Investigadores han descubierto que LoRA (Low-Rank Adaptation), una técnica popular para ajustar grandes modelos de lenguaje (LLMs), se comporta de manera diferente a lo esperado cuando interactúa con el weight decay (decaimiento de pesos). Mientras que el ajuste fino completo regulariza los pesos ha

17 May 2026

IA traduce imágenes en diseños CAD editables con precisión

GenCAD es un modelo de inteligencia artificial diseñado para generar modelos CAD (diseño asistido por computadora) a partir de imágenes. A diferencia de otras aproximaciones que simplemente crean representaciones geométricas como mallas ovoxeles, GenCAD genera la secuencia completa de comandos param

05 May 2026

Entrena GPT en tu laptop: Taller práctico y accesible

Un desarrollador ha creado un taller práctico para permitir a usuarios entrenar modelos GPT en laptops, incluso sin experiencia previa en aprendizaje automático. Inspirado por el proyecto 'nanoGPT' de Andrej Karpathy, el taller simplifica el proceso, reduciendo el tamaño del modelo a aproximadamente

04 May 2026

IA: Nvidia impulsa modelos con mayor contexto

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendim

17 Apr 2026

Deja la IA: Ingeniero busca fundamentos en la programación

Un ingeniero de Aily Labs, empresa especializada en inteligencia artificial, ha decidido tomarse un descanso de la IA para enfocarse en la programación manual, residiendo actualmente en Brooklyn como parte de un “retiro de codificación”. Tras dos años trabajando en Aily Labs, desarrollando agentes d

31 Mar 2026

Cohere lanza modelo de voz de alta precisión

Cohere ha lanzado Transcribe, un modelo de reconocimiento automático de voz (ASR) de última generación y de código abierto, disponible para descarga desde Hugging Face. El objetivo de Cohere fue crear un modelo preciso y listo para uso práctico, minimizando la tasa de error de palabra (WER). Transcr

10 Mar 2026

IA sorprende: modelo líder sin ajustes

En un giro inesperado en el mundo de la inteligencia artificial, un investigador conocido como 'dnhkng' ha logrado colocar su modelo, 'RYS-XLarge', en la cima del Hugging Face Open LLM Leaderboard, sin modificar ni un solo peso del modelo original. La hazaña, lograda a mediados de 2024, implica dupl

02 Mar 2026

OctaPulse: Robótica innovadora para mejorar la acuicultura

OctaPulse, una startup fundada por Rohan y Paul, está revolucionando la acuicultura mediante la aplicación de robótica y visión artificial. La empresa, incubada en Y Combinator (W26), surgió de la preocupación de sus fundadores por la sobreexplotación de los recursos pesqueros, un problema que afect

26 Feb 2026

LiDAR: Datos de onda revelan detalles cruciales

El LiDAR (Light Detection and Ranging) se ha convertido en una tecnología esencial para la conducción autónoma, proporcionando escaneos 3D de alta resolución que permiten una comprensión precisa del entorno. Tradicionalmente, los sensores LiDAR miden la intensidad de la luz láser reflejada en funció

25 Feb 2026

Capybara: IA de código abierto revoluciona la creación visual

Investigadores han presentado 'Capybara', un nuevo modelo de inteligencia artificial de código abierto diseñado para la generación y edición visual de alta calidad. Lanzado recientemente (el 17 de febrero de 2026), Capybara combina arquitecturas de difusión avanzadas y transformadores para ofrecer v

17 Feb 2026

Ajedrez impulsa avances en inteligencia artificial

Investigadores de motores de ajedrez están revolucionando la eficiencia de la inteligencia artificial a través de nuevas técnicas de entrenamiento, según un informe reciente. Inicialmente, los motores de ajedrez, como lc0, utilizaban el aprendizaje por refuerzo (RL) para entrenar sus modelos, donde

16 Feb 2026

AGI: ¿Tan cerca está la IA humana?

La industria de la inteligencia artificial se encuentra en un momento de euforia sin precedentes. Los líderes de OpenAI y Anthropic han afirmado repetidamente que la inteligencia artificial de nivel humano (AGI) está al alcance de la mano, y en algunos casos, ya ha sido alcanzada. Estas declaracione

Noticias que mencionan transformer