Nueva arquitectura Interfaze supera a GPT-5, Claude y Gemini en benchmarks

Interfaze es una nueva arquitectura de modelo de inteligencia artificial que supera a modelos líderes como Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini y Grok-4.3 en nueve benchmarks comparativos directos. La arquitectuta combina la especialización de redes neuronales profundas (DNN/CNN) con tran

Entrena GPT en tu laptop: Taller práctico y accesible

Un desarrollador ha creado un taller práctico para permitir a usuarios entrenar modelos GPT en laptops, incluso sin experiencia previa en aprendizaje automático. Inspirado por el proyecto 'nanoGPT' de Andrej Karpathy, el taller simplifica el proceso, reduciendo el tamaño del modelo a aproximadamente

Investigación revela eficiencia oculta en Transformers

Este artículo de investigación, titulado "Transformers son inherentemente concisos", explora una propiedad fundamental y sorprendente de los modelos Transformer, la arquitectura que impulsa la mayoría de los modelos de lenguaje grandes (LLMs) como ChatGPT. Tradicionalmente, los Transformers se han c

IA: Nvidia impulsa modelos con mayor contexto

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendim

Aprendizaje profundo: separan modelo y cálculo para más eficiencia

Investigadores de Facebook AI (Meta) han publicado dos nuevos métodos que separan el tamaño del modelo y la potencia computacional en el aprendizaje profundo, desafiando la práctica común de considerarlos como una sola entidad. El primer método, basado en capas de hash, permite aumentar el tamaño de

Modelos de lenguaje: hallan patrones numéricos comunes

Este artículo de investigación, titulado "Evolución Convergente: Cómo Diferentes Modelos de Lenguaje Aprenden Representaciones Numéricas Similares", explora un fenómeno fascinante en el campo del procesamiento del lenguaje natural: la forma en que distintos modelos de lenguaje, incluso aquellos con

Cómo funcionan los modelos de lenguaje como ChatGPT

Los Modelos de Lenguaje Grandes (LLMs), como ChatGPT, han revolucionado la forma en que interactuamos con la tecnología. Pero, ¿cómo funcionan realmente? Este resumen explica el proceso, desde los datos brutos hasta la creación de un asistente conversacional. **¿Qué son y por qué son importantes?*

DeepSeek-V4: IA procesa textos extensos sin problemas

DeepSeek-V4 es una nueva generación de modelos de lenguaje de gran escala (LLM) desarrollados por DeepSeek AI, que se destacan por su capacidad para procesar contextos extremadamente largos, hasta un millón de tokens. Esto representa un avance significativo, ya que la mayoría de los LLM tradicionale

Atención Híbrida: Acelera modelos de lenguaje

El proyecto presentado explora una nueva arquitectura de atención llamada 'Atención Híbrida' para modelos de lenguaje, con un enfoque particular en la generación de código Rust. El objetivo principal es acelerar significativamente la inferencia sin comprometer la calidad del modelo. Tradicionalmente

AtnRes: Nueva técnica optimiza modelos de lenguaje

Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación u

NanoGPT: Entrenamiento de IA más eficiente desafía modelos existentes

Este artículo de Q Labs describe un avance significativo en la eficiencia del uso de datos en el entrenamiento de modelos de lenguaje, logrando una mejora de 10 veces utilizando su técnica 'NanoGPT Slowrun'. Esto desafía las leyes de escalamiento convencionales, como las propuestas por Chinchilla, q

Modelos de lenguaje: ¿datos sintéticos para el futuro?

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con

LLM más potentes: técnica de duplicación sorprende

Investigadores han desarrollado una técnica innovadora para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) sin necesidad de entrenamiento adicional ni modificación de los pesos. El método, basado en el trabajo previo de David Ng (RYS), implica duplicar bloques específicos de capas d

LLMs ejecutan programas: IA más rápida y potente

Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para

Entrenar IA de código abierto: desafíos inesperados

Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c

Ciencia frente a la complejidad: ¿basta con las ecuaciones?

Durante la mayor parte de la historia humana, los fenómenos complejos se atribuían a lo místico. Con el tiempo, la ciencia, con sus concisas ecuaciones (F=ma, E=mc², PV=nRT), logró comprimir vastas cantidades de información en modelos manejables, diseñados para ser comprendidos y aplicados por la me

Obliteratus: elimina filtros de IA sin reentrenar

Un nuevo toolkit de código abierto llamado 'Obliteratus' ha sido lanzado para eliminar comportamientos de rechazo en modelos de lenguaje grandes (LLMs). Desarrollado por Elder-Plinius y disponible en Hugging Face Spaces, Obliteratus utiliza técnicas de 'abliterator' para identificar y remover las re

Heretic: herramienta elimina censura de IA automáticamente

Un nuevo conjunto de herramientas llamado Heretic está automatizando la eliminación de restricciones de seguridad (censura) de modelos de lenguaje basados en transformadores, sin necesidad de costosos procesos de reentrenamiento. Desarrollado por P-E-W y disponible en GitHub, Heretic combina técnica

AGI: ¿Tan cerca está la IA humana?

El artículo explora por qué la inteligencia artificial general (AGI), o IA a nivel humano, podría no ser tan inminente como algunos CEOs de OpenAI y Anthropic sugieren. El autor, con un doctorado en Machine Learning, argumenta que los modelos de lenguaje basados en transformadores actuales tienen li

FORTH y Transformadores: Una Alternativa Inesperada

El artículo explora una alternativa a la descomposición recursiva de problemas al usar arquitecturas de transformadores, sugiriendo que lenguajes como FORTH y los lenguajes asociativos/aplicativos podrían ser más adecuados. El autor propone un enfoque de "concatenación" en lugar de "integración", en