Noticias que mencionan Transformers

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generac

Nueva herramienta encuentra el mejor LLM para tu hardware

El desarrollador Andyyyy64 ha publicado en GitHub la herramienta 'whichllm', diseñada para ayudar a los usuarios a encontrar el modelo de lenguaje grande (LLM) más adecuado para su hardware específico. La aplicación detecta automáticamente las características del sistema (GPU, CPU, RAM) y ordena los

Modelos de lenguaje: técnica reduce tamaño sin perder calidad

Investigadores han desarrollado una nueva técnica para comprimir incrustaciones (embeddings) de modelos de lenguaje, mejorando significativamente la eficiencia sin sacrificar la calidad de la recuperación de información. La técnica, denominada 'poly-autoencoder', combina un codificador PCA (Principa

Investigación revela eficiencia oculta en Transformers

Este artículo de investigación, titulado "Transformers son inherentemente concisos", explora una propiedad fundamental y sorprendente de los modelos Transformer, la arquitectura que impulsa la mayoría de los modelos de lenguaje grandes (LLMs) como ChatGPT. Tradicionalmente, los Transformers se han c

Dirac: código abierto supera a Google en codificación

Un nuevo agente de codificación de código abierto llamado Dirac ha superado a Google y a sus competidores de código cerrado en las pruebas de rendimiento. Dirac alcanzó una puntuación del 65.2% en el *Terminal-Bench-2 leaderboard*, superando la línea de base oficial de Google (47.6%) y al agente de

Aprendizaje profundo: separan modelo y cálculo para más eficiencia

Investigadores de Facebook AI (Meta) han publicado dos nuevos métodos que separan el tamaño del modelo y la potencia computacional en el aprendizaje profundo, desafiando la práctica común de considerarlos como una sola entidad. El primer método, basado en capas de hash, permite aumentar el tamaño de

Modelos de lenguaje: hallan patrones numéricos comunes

Este artículo de investigación, titulado "Evolución Convergente: Cómo Diferentes Modelos de Lenguaje Aprenden Representaciones Numéricas Similares", explora un fenómeno fascinante en el campo del procesamiento del lenguaje natural: la forma en que distintos modelos de lenguaje, incluso aquellos con

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

LLMs de código abierto: incompatibilidad dificulta su uso

El uso de modelos de lenguaje grandes (LLM) de código abierto se enfrenta a un desafío significativo: la incompatibilidad en los formatos de llamada de herramientas. Mientras que los modelos cerrados como los de OpenAI ofrecen una integración fluida, los modelos de código abierto requieren que los d

IA se auto-optimiza y supera expectativas

MiniMax ha desarrollado M2.7, un modelo de inteligencia artificial que se ha mejorado a sí mismo de forma autónoma, logrando resultados impresionantes en pruebas de referencia. En un proceso sin intervención humana directa, el modelo analizó sus propios fallos, modificó su código y optimizó su rendi

IA multimodal en Mac: nueva herramienta facilita el ajuste

Un nuevo toolkit llamado 'gemma-tuner-multimodal' permite a los usuarios afinar modelos Gemma de Google para tareas de inteligencia artificial multimodal (texto, imágenes y audio) directamente en Macs con Apple Silicon. La herramienta, desarrollada por Mattmireles y disponible en GitHub, elimina la

IA recuerda: Nuevo sistema mejora la memoria de los agentes

Un nuevo sistema de memoria para agentes de IA llamado Hippo-Memory ha sido lanzado, abordando la limitación de los agentes actuales que olvidan el contexto entre sesiones. Hippo-Memory permite a los agentes recordar información de manera persistente y portátil, funcionando como una capa de memoria

AtnRes: Nueva técnica optimiza modelos de lenguaje

Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación u

Modelos de lenguaje: ¿datos sintéticos para el futuro?

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con

LLMs ejecutan programas: IA más rápida y potente

Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

IA desata 'máquinas de brecha': ¿quién las controla?

El artículo explora una nueva y preocupante tendencia en la seguridad informática: la proliferación de lo que el autor denomina "máquinas de brecha de datos" impulsadas por agentes de IA. Utiliza una analogía ingeniosa: los agentes de IA son como Drácula, entidades poderosas y con sus propios objeti

Sarvam AI libera modelos de lenguaje hechos en India

Sarvam AI ha lanzado de forma abierta los modelos de lenguaje Sarvam 30B y Sarvam 105B, diseñados para razonamiento y optimizados para el despliegue eficiente en una amplia gama de hardware, desde GPUs de alto rendimiento hasta dispositivos personales. El entrenamiento se llevó a cabo íntegramente e

Unsloth agiliza el ajuste de modelos Qwen3.5

Unsloth ha simplificado el proceso de ajuste fino (fine-tuning) de los modelos de lenguaje grandes Qwen3.5, una familia de modelos desarrollada por Alibaba. Ahora, usuarios pueden ajustar versiones de 0.8B a 122B de Qwen3.5, incluyendo soporte para ajuste fino tanto de texto como de visión. Unsloth

Ocr sin servidor: 40 líneas de código lo hacen posible

Un desarrollador ha creado un sistema de Reconocimiento Óptico de Caracteres (OCR) sin servidor utilizando un modelo de código abierto, DeepSeek OCR, en tan solo 40 líneas de código. La solución, implementada a través de la plataforma Modal, permite procesar documentos PDF, incluso aquellos con nota

Alibaba crea RynnBrain: IA que 've' y comprende el mundo

RynnBrain es un modelo de base encarnado (embodied foundation model) desarrollado por Alibaba Damo Academy, diseñado para comprender e interactuar con el mundo físico de una manera más profunda que los modelos de lenguaje tradicionales. Imagina un modelo que no solo entiende el lenguaje, sino que ta

GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras com