Transformers

29 Jun 2026

Ornith-1.0: la familia de modelos abiertos que se entrena a sí misma para programar

Ornith-1.0 es una familia de modelos de inteligencia artificial de código abierto orientada a la programación agéntica, es decir, a tareas de coding en las que el modelo no solo escribe código, sino que planifica, ejecuta comandos y opera herramientas de forma autónoma. La release incluye cuatro var

22 Jun 2026

GLM-5.2 frente a Claude Opus 4.8: comparativa práctica con un juego 3D en WebGL

El modelo abierto GLM-5.2, desarrollado por Z.ai bajo licencia MIT, se enfrenta a Claude Opus 4.8 en una prueba práctica consistente en construir un plataformas 3D en WebGL puro, sin librerías como Three.js, a partir de un único prompt. GLM-5.2 está pensado para tareas largas y agenticas: ofrece ven

20 May 2026

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generac

20 May 2026

Universidad Beihang presenta SFHformer, framework que combina FFT y Transformers

Investigadores de la Universidad Beihang de Beijing desarrollaron SFHformer, un nuevo marco de restauración de imágenes que combina la Transformada Rápida de Fourier (FFT) con arquitectura Transformer. El trabajo fue aceptado en la conferencia ECCV 2024 y publicado en octubre de ese año. Este framew

16 May 2026

Presentan Orthrus, framework que multiplica por 7,8 la velocidad en generación de texto con IA

Se ha presentado Orthrus, un nuevo framework de inteligencia artificial que combina la precisión de los modelos de lenguaje grandes autoregresivos con la velocidad de generación paralela de los modelos de difusión. El sistema, desarrollado por el investigador Chiennv y disponible en HuggingFace, log

15 May 2026

Nueva herramienta encuentra el mejor LLM para tu hardware

El desarrollador Andyyyy64 ha publicado en GitHub la herramienta 'whichllm', diseñada para ayudar a los usuarios a encontrar el modelo de lenguaje grande (LLM) más adecuado para su hardware específico. La aplicación detecta automáticamente las características del sistema (GPU, CPU, RAM) y ordena los

08 May 2026

Modelos de lenguaje: técnica reduce tamaño sin perder calidad

Investigadores han desarrollado una nueva técnica para comprimir incrustaciones (embeddings) de modelos de lenguaje, mejorando significativamente la eficiencia sin sacrificar la calidad de la recuperación de información. La técnica, denominada 'poly-autoencoder', combina un codificador PCA (Principa

04 May 2026

Investigación revela eficiencia oculta en Transformers

Este artículo de investigación, titulado "Transformers son inherentemente concisos", explora una propiedad fundamental y sorprendente de los modelos Transformer, la arquitectura que impulsa la mayoría de los modelos de lenguaje grandes (LLMs) como ChatGPT. Tradicionalmente, los Transformers se han c

27 Apr 2026

Dirac: código abierto supera a Google en codificación

Un nuevo agente de codificación de código abierto llamado Dirac ha superado a Google y a sus competidores de código cerrado en las pruebas de rendimiento. Dirac alcanzó una puntuación del 65.2% en el *Terminal-Bench-2 leaderboard*, superando la línea de base oficial de Google (47.6%) y al agente de

25 Apr 2026

Aprendizaje profundo: separan modelo y cálculo para más eficiencia

Investigadores de Facebook AI (Meta) han publicado dos nuevos métodos que separan el tamaño del modelo y la potencia computacional en el aprendizaje profundo, desafiando la práctica común de considerarlos como una sola entidad. El primer método, basado en capas de hash, permite aumentar el tamaño de

24 Apr 2026

Modelos de lenguaje: hallan patrones numéricos comunes

Este artículo de investigación, titulado "Evolución Convergente: Cómo Diferentes Modelos de Lenguaje Aprenden Representaciones Numéricas Similares", explora un fenómeno fascinante en el campo del procesamiento del lenguaje natural: la forma en que distintos modelos de lenguaje, incluso aquellos con

19 Apr 2026

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

14 Apr 2026

LLMs de código abierto: incompatibilidad dificulta su uso

El uso de modelos de lenguaje grandes (LLM) de código abierto se enfrenta a un desafío significativo: la incompatibilidad en los formatos de llamada de herramientas. Mientras que los modelos cerrados como los de OpenAI ofrecen una integración fluida, los modelos de código abierto requieren que los d

12 Apr 2026

IA se auto-optimiza y supera expectativas

MiniMax ha desarrollado M2.7, un modelo de inteligencia artificial que se ha mejorado a sí mismo de forma autónoma, logrando resultados impresionantes en pruebas de referencia. En un proceso sin intervención humana directa, el modelo analizó sus propios fallos, modificó su código y optimizó su rendi

07 Apr 2026

IA multimodal en Mac: nueva herramienta facilita el ajuste

Un nuevo toolkit llamado 'gemma-tuner-multimodal' permite a los usuarios afinar modelos Gemma de Google para tareas de inteligencia artificial multimodal (texto, imágenes y audio) directamente en Macs con Apple Silicon. La herramienta, desarrollada por Mattmireles y disponible en GitHub, elimina la

06 Apr 2026

IA recuerda: Nuevo sistema mejora la memoria de los agentes

Un nuevo sistema de memoria para agentes de IA llamado Hippo-Memory ha sido lanzado, abordando la limitación de los agentes actuales que olvidan el contexto entre sesiones. Hippo-Memory permite a los agentes recordar información de manera persistente y portátil, funcionando como una capa de memoria

21 Mar 2026

AtnRes: Nueva técnica optimiza modelos de lenguaje

Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación u

19 Mar 2026

Modelos de lenguaje: ¿datos sintéticos para el futuro?

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con

13 Mar 2026

LLMs ejecutan programas: IA más rápida y potente

Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para

10 Mar 2026

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

10 Mar 2026

IA desata 'máquinas de brecha': ¿quién las controla?

El artículo explora una nueva y preocupante tendencia en la seguridad informática: la proliferación de lo que el autor denomina "máquinas de brecha de datos" impulsadas por agentes de IA. Utiliza una analogía ingeniosa: los agentes de IA son como Drácula, entidades poderosas y con sus propios objeti

07 Mar 2026

Sarvam AI libera modelos de lenguaje hechos en India

Sarvam AI ha lanzado de forma abierta los modelos de lenguaje Sarvam 30B y Sarvam 105B, diseñados para razonamiento y optimizados para el despliegue eficiente en una amplia gama de hardware, desde GPUs de alto rendimiento hasta dispositivos personales. El entrenamiento se llevó a cabo íntegramente e

04 Mar 2026

Unsloth agiliza el ajuste de modelos Qwen3.5

Unsloth ha simplificado el proceso de ajuste fino (fine-tuning) de los modelos de lenguaje grandes Qwen3.5, una familia de modelos desarrollada por Alibaba. Ahora, usuarios pueden ajustar versiones de 0.8B a 122B de Qwen3.5, incluyendo soporte para ajuste fino tanto de texto como de visión. Unsloth

16 Feb 2026

Ocr sin servidor: 40 líneas de código lo hacen posible

Un desarrollador ha creado un sistema de Reconocimiento Óptico de Caracteres (OCR) sin servidor utilizando un modelo de código abierto, DeepSeek OCR, en tan solo 40 líneas de código. La solución, implementada a través de la plataforma Modal, permite procesar documentos PDF, incluso aquellos con nota

15 Feb 2026

Alibaba crea RynnBrain: IA que 've' y comprende el mundo

RynnBrain es un modelo de base encarnado (embodied foundation model) desarrollado por Alibaba Damo Academy, diseñado para comprender e interactuar con el mundo físico de una manera más profunda que los modelos de lenguaje tradicionales. Imagina un modelo que no solo entiende el lenguaje, sino que ta

11 Feb 2026

GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras com

04 Feb 2026

Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation

Un nuevo estudio presenta una técnica para optimizar el mecanismo de autoatención en modelos Transformer, reduciendo significativamente los costos de cómputo y memoria. La investigación, basada en una aproximación de Taylor que considera la simetría de las operaciones, permite calcular la autoatenci

Noticias que mencionan Transformers