Noticias que mencionan Transformers

AtnRes: Nueva técnica optimiza modelos de lenguaje

Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación u

Modelos de lenguaje: ¿datos sintéticos para el futuro?

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con

LLMs ejecutan programas: IA más rápida y potente

Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

IA desata 'máquinas de brecha': ¿quién las controla?

El artículo explora una nueva y preocupante tendencia en la seguridad informática: la proliferación de lo que el autor denomina "máquinas de brecha de datos" impulsadas por agentes de IA. Utiliza una analogía ingeniosa: los agentes de IA son como Drácula, entidades poderosas y con sus propios objeti

Sarvam AI libera modelos de lenguaje hechos en India

Sarvam AI ha lanzado de forma abierta los modelos de lenguaje Sarvam 30B y Sarvam 105B, diseñados para razonamiento y optimizados para el despliegue eficiente en una amplia gama de hardware, desde GPUs de alto rendimiento hasta dispositivos personales. El entrenamiento se llevó a cabo íntegramente e

Unsloth agiliza el ajuste de modelos Qwen3.5

Unsloth ha simplificado el proceso de ajuste fino (fine-tuning) de los modelos de lenguaje grandes Qwen3.5, una familia de modelos desarrollada por Alibaba. Ahora, usuarios pueden ajustar versiones de 0.8B a 122B de Qwen3.5, incluyendo soporte para ajuste fino tanto de texto como de visión. Unsloth

Ocr sin servidor: 40 líneas de código lo hacen posible

Un desarrollador ha creado un sistema de Reconocimiento Óptico de Caracteres (OCR) sin servidor utilizando un modelo de código abierto, DeepSeek OCR, en tan solo 40 líneas de código. La solución, implementada a través de la plataforma Modal, permite procesar documentos PDF, incluso aquellos con nota

Alibaba crea RynnBrain: IA que 've' y comprende el mundo

RynnBrain es un modelo de base encarnado (embodied foundation model) desarrollado por Alibaba Damo Academy, diseñado para comprender e interactuar con el mundo físico de una manera más profunda que los modelos de lenguaje tradicionales. Imagina un modelo que no solo entiende el lenguaje, sino que ta

GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras com

Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation

Un nuevo estudio presenta una técnica para optimizar el mecanismo de autoatención en modelos Transformer, reduciendo significativamente los costos de cómputo y memoria. La investigación, basada en una aproximación de Taylor que considera la simetría de las operaciones, permite calcular la autoatenci