transformers - ojeo.com

09 Jun 2026

OpenCV 5 llega el 8 de junio con un nuevo motor de red neuronal y soporte ONNX ampliado

La versión 5 de OpenCV, la biblioteca de referencia en visión por computador con más de 86.000 estrellas en GitHub y un millón de instalaciones diarias, se publicará el 8 de junio en PyPI. Se trata de la mayor revisión del proyecto en años, coordinada por la organización sin ánimo de lucro OpenCV.or

04 Jun 2026

Investigación revela alternativas eficientes a las proyecciones QKV en Transformers

Un nuevo estudio explora la necesidad de las tres proyecciones (Query, Key, Value) en los Transformers, componentes centrales de la arquitectura para tareas de inteligencia artificial. Los investigadores evaluaron restricciones de compartición de proyecciones, incluyendo la combinación de Q-K=V, Q=K

01 Jun 2026

Stanford CS336: un curso para construir un modelo de lenguaje desde cero

Stanford, una de las universidades más prestigiosas del mundo en ciencias de la computación, ha puesto en marcha el curso CS336, una asignatura singular que propone a los estudiantes construir un modelo de lenguaje de gran tamaño (LLM) desde cero, replicando el espíritu de los legendarios cursos de

26 May 2026

Ia aprende a dormir para mejorar su memoria

Los modelos de lenguaje basados en Transformers han revolucionado la inteligencia artificial, pero enfrentan un cuello de botella crítico: su mecanismo de atención no escala eficientemente con el aumento de la longitud del contexto. Este artículo, titulado "Language Models Need Sleep", propone una s

22 May 2026

CODA optimiza Transformers al evitar mover datos a memoria global durante cálculos

CODA es una nueva abstracción de kernel GPU que revoluciona la forma de ejecutar los componentes no attention de los Transformers. El problema que resuelve es fundamental: mientras que las operaciones de multiplicación de matrices (GEMM) están altamente optimizadas y utilizan eficientemente la memor

20 May 2026

Universidad Beihang presenta SFHformer, framework que combina FFT y Transformers

Investigadores de la Universidad Beihang de Beijing desarrollaron SFHformer, un nuevo marco de restauración de imágenes que combina la Transformada Rápida de Fourier (FFT) con arquitectura Transformer. El trabajo fue aceptado en la conferencia ECCV 2024 y publicado en octubre de ese año. Este framew

11 May 2026

Nueva arquitectura Interfaze supera a GPT-5, Claude y Gemini en benchmarks

Interfaze es una nueva arquitectura de modelo de inteligencia artificial que supera a modelos líderes como Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini y Grok-4.3 en nueve benchmarks comparativos directos. La arquitectuta combina la especialización de redes neuronales profundas (DNN/CNN) con tran

05 May 2026

Entrena GPT en tu laptop: Taller práctico y accesible

Un desarrollador ha creado un taller práctico para permitir a usuarios entrenar modelos GPT en laptops, incluso sin experiencia previa en aprendizaje automático. Inspirado por el proyecto 'nanoGPT' de Andrej Karpathy, el taller simplifica el proceso, reduciendo el tamaño del modelo a aproximadamente

04 May 2026

Investigación revela eficiencia oculta en Transformers

Este artículo de investigación, titulado "Transformers son inherentemente concisos", explora una propiedad fundamental y sorprendente de los modelos Transformer, la arquitectura que impulsa la mayoría de los modelos de lenguaje grandes (LLMs) como ChatGPT. Tradicionalmente, los Transformers se han c

04 May 2026

IA: Nvidia impulsa modelos con mayor contexto

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendim

25 Apr 2026

Aprendizaje profundo: separan modelo y cálculo para más eficiencia

Investigadores de Facebook AI (Meta) han publicado dos nuevos métodos que separan el tamaño del modelo y la potencia computacional en el aprendizaje profundo, desafiando la práctica común de considerarlos como una sola entidad. El primer método, basado en capas de hash, permite aumentar el tamaño de

24 Apr 2026

Modelos de lenguaje: hallan patrones numéricos comunes

Este artículo de investigación, titulado "Evolución Convergente: Cómo Diferentes Modelos de Lenguaje Aprenden Representaciones Numéricas Similares", explora un fenómeno fascinante en el campo del procesamiento del lenguaje natural: la forma en que distintos modelos de lenguaje, incluso aquellos con

24 Apr 2026

Cómo funcionan los modelos de lenguaje como ChatGPT

Los Modelos de Lenguaje Grandes (LLMs), como ChatGPT, han revolucionado la forma en que interactuamos con la tecnología. Pero, ¿cómo funcionan realmente? Este resumen explica el proceso, desde los datos brutos hasta la creación de un asistente conversacional. **¿Qué son y por qué son importantes?*

24 Apr 2026

DeepSeek-V4: IA procesa textos extensos sin problemas

DeepSeek-V4 es una nueva generación de modelos de lenguaje de gran escala (LLM) desarrollados por DeepSeek AI, que se destacan por su capacidad para procesar contextos extremadamente largos, hasta un millón de tokens. Esto representa un avance significativo, ya que la mayoría de los LLM tradicionale

07 Apr 2026

Atención Híbrida: Acelera modelos de lenguaje

El proyecto presentado explora una nueva arquitectura de atención llamada 'Atención Híbrida' para modelos de lenguaje, con un enfoque particular en la generación de código Rust. El objetivo principal es acelerar significativamente la inferencia sin comprometer la calidad del modelo. Tradicionalmente

21 Mar 2026

AtnRes: Nueva técnica optimiza modelos de lenguaje

Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación u

19 Mar 2026

NanoGPT: Entrenamiento de IA más eficiente desafía modelos existentes

Este artículo de Q Labs describe un avance significativo en la eficiencia del uso de datos en el entrenamiento de modelos de lenguaje, logrando una mejora de 10 veces utilizando su técnica 'NanoGPT Slowrun'. Esto desafía las leyes de escalamiento convencionales, como las propuestas por Chinchilla, q

19 Mar 2026

Modelos de lenguaje: ¿datos sintéticos para el futuro?

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con

19 Mar 2026

LLM más potentes: técnica de duplicación sorprende

Investigadores han desarrollado una técnica innovadora para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) sin necesidad de entrenamiento adicional ni modificación de los pesos. El método, basado en el trabajo previo de David Ng (RYS), implica duplicar bloques específicos de capas d

13 Mar 2026

LLMs ejecutan programas: IA más rápida y potente

Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para

10 Mar 2026

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

10 Mar 2026

Ciencia frente a la complejidad: ¿basta con las ecuaciones?

Durante la mayor parte de la historia humana, los fenómenos complejos se atribuían a lo místico. Con el tiempo, la ciencia, con sus concisas ecuaciones (F=ma, E=mc², PV=nRT), logró comprimir vastas cantidades de información en modelos manejables, diseñados para ser comprendidos y aplicados por la me

06 Mar 2026

Obliteratus: elimina filtros de IA sin reentrenar

Un nuevo toolkit de código abierto llamado 'Obliteratus' ha sido lanzado para eliminar comportamientos de rechazo en modelos de lenguaje grandes (LLMs). Desarrollado por Elder-Plinius y disponible en Hugging Face Spaces, Obliteratus utiliza técnicas de 'abliterator' para identificar y remover las re

16 Feb 2026

Heretic: herramienta elimina censura de IA automáticamente

Un nuevo conjunto de herramientas llamado Heretic está automatizando la eliminación de restricciones de seguridad (censura) de modelos de lenguaje basados en transformadores, sin necesidad de costosos procesos de reentrenamiento. Desarrollado por P-E-W y disponible en GitHub, Heretic combina técnica

16 Feb 2026

AGI: ¿Tan cerca está la IA humana?

La industria de la inteligencia artificial se encuentra en un momento de euforia sin precedentes. Los líderes de OpenAI y Anthropic han afirmado repetidamente que la inteligencia artificial de nivel humano (AGI) está al alcance de la mano, y en algunos casos, ya ha sido alcanzada. Estas declaracione

07 Feb 2026

FORTH y Transformadores: Una Alternativa Inesperada

El artículo explora una alternativa a la descomposición recursiva de problemas al usar arquitecturas de transformadores, sugiriendo que lenguajes como FORTH y los lenguajes asociativos/aplicativos podrían ser más adecuados. El autor propone un enfoque de "concatenación" en lugar de "integración", en

04 Feb 2026

Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation

Un nuevo estudio presenta una técnica para optimizar el mecanismo de autoatención en modelos Transformer, reduciendo significativamente los costos de cómputo y memoria. La investigación, basada en una aproximación de Taylor que considera la simetría de las operaciones, permite calcular la autoatenci

03 Feb 2026

The Hot Mess of AI: How Does Misalignment Scale with Model Intelligence and Task Complexity?

Una nueva investigación realizada como parte del programa Anthropic Fellows ha revelado que los fallos de los modelos de IA de vanguardia están cada vez más dominados por la incoherencia en lugar de la falta de alineación sistemática. El estudio, basado en la teoría del 'hot mess' de la falta de ali