transformers
13 noticias
AtnRes: Nueva técnica optimiza modelos de lenguaje
Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación u
NanoGPT: Entrenamiento de IA más eficiente desafía modelos existentes
Este artículo de Q Labs describe un avance significativo en la eficiencia del uso de datos en el entrenamiento de modelos de lenguaje, logrando una mejora de 10 veces utilizando su técnica 'NanoGPT Slowrun'. Esto desafía las leyes de escalamiento convencionales, como las propuestas por Chinchilla, q
Modelos de lenguaje: ¿datos sintéticos para el futuro?
El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con
LLM más potentes: técnica de duplicación sorprende
Investigadores han desarrollado una técnica innovadora para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) sin necesidad de entrenamiento adicional ni modificación de los pesos. El método, basado en el trabajo previo de David Ng (RYS), implica duplicar bloques específicos de capas d
LLMs ejecutan programas: IA más rápida y potente
Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para
Entrenar IA de código abierto: desafíos inesperados
Un ingeniero de Workshop Labs, Addie Foote, relata los desafíos encontrados al intentar entrenar y servir modelos de lenguaje grandes con pesos abiertos, específicamente el modelo Kimi-K2-Thinking de Moonshot AI. El objetivo era post-entrenar el modelo, que cuenta con 1 billón de parámetros y está c
Ciencia frente a la complejidad: ¿basta con las ecuaciones?
Durante la mayor parte de la historia humana, los fenómenos complejos se atribuían a lo místico. Con el tiempo, la ciencia, con sus concisas ecuaciones (F=ma, E=mc², PV=nRT), logró comprimir vastas cantidades de información en modelos manejables, diseñados para ser comprendidos y aplicados por la me
Obliteratus: elimina filtros de IA sin reentrenar
Un nuevo toolkit de código abierto llamado 'Obliteratus' ha sido lanzado para eliminar comportamientos de rechazo en modelos de lenguaje grandes (LLMs). Desarrollado por Elder-Plinius y disponible en Hugging Face Spaces, Obliteratus utiliza técnicas de 'abliterator' para identificar y remover las re
Heretic: herramienta elimina censura de IA automáticamente
Un nuevo conjunto de herramientas llamado Heretic está automatizando la eliminación de restricciones de seguridad (censura) de modelos de lenguaje basados en transformadores, sin necesidad de costosos procesos de reentrenamiento. Desarrollado por P-E-W y disponible en GitHub, Heretic combina técnica
AGI: ¿Tan cerca está la IA humana?
El artículo explora por qué la inteligencia artificial general (AGI), o IA a nivel humano, podría no ser tan inminente como algunos CEOs de OpenAI y Anthropic sugieren. El autor, con un doctorado en Machine Learning, argumenta que los modelos de lenguaje basados en transformadores actuales tienen li
FORTH y Transformadores: Una Alternativa Inesperada
El artículo explora una alternativa a la descomposición recursiva de problemas al usar arquitecturas de transformadores, sugiriendo que lenguajes como FORTH y los lenguajes asociativos/aplicativos podrían ser más adecuados. El autor propone un enfoque de "concatenación" en lugar de "integración", en
Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation
Un nuevo estudio presenta una técnica para optimizar el mecanismo de autoatención en modelos Transformer, reduciendo significativamente los costos de cómputo y memoria. La investigación, basada en una aproximación de Taylor que considera la simetría de las operaciones, permite calcular la autoatenci
The Hot Mess of AI: How Does Misalignment Scale with Model Intelligence and Task Complexity?
Una nueva investigación realizada como parte del programa Anthropic Fellows ha revelado que los fallos de los modelos de IA de vanguardia están cada vez más dominados por la incoherencia en lugar de la falta de alineación sistemática. El estudio, basado en la teoría del 'hot mess' de la falta de ali
