21 Mar 2026 · Original en inglés · Artículo

AtnRes: Nueva técnica optimiza modelos de lenguaje

Fuentes: GitHub - MoonshotAI/Attention-Residuals

Attention Residuals (AttnRes) es una innovadora técnica que optimiza las conexiones residuales en los Transformers, una arquitectura fundamental en modelos de lenguaje grandes (LLMs) como GPT. Tradicionalmente, las conexiones residuales simplemente suman la salida de cada capa con una ponderación uniforme. Si bien esto facilita el entrenamiento, a medida que la profundidad de la red aumenta (más capas), la contribución de cada capa se diluye, un problema conocido como 'dilución de PreNorm', y los valores de los estados ocultos tienden a crecer sin límite. AttnRes aborda este problema permitiendo que cada capa agregue selectivamente las representaciones de las capas anteriores mediante un mecanismo de atención ponderada, dependiente de la entrada.

En esencia, AttnRes reemplaza la suma simple con una operación de softmax attention sobre las salidas de las capas precedentes. Esto significa que cada capa aprende a dar más peso a las representaciones de las capas anteriores que son más relevantes para la tarea actual. La implementación original (Full AttnRes) tiene una complejidad de memoria de O(Ld), donde L es la profundidad de la red y d es la dimensión de la representación, lo que puede ser prohibitivo para modelos muy profundos. Para solucionar esto, se introduce Block AttnRes, una variante que divide la red en bloques y aplica la atención solo entre los bloques, reduciendo la complejidad de memoria a O(Nd), donde N es el número de bloques. Esto mantiene la mayoría de los beneficios de Full AttnRes con una sobrecarga computacional mínima.

¿Para qué sirve? AttnRes es útil para entrenar modelos Transformer más profundos y eficientes, especialmente aquellos que requieren razonamiento complejo o generación de código. Los investigadores y desarrolladores de LLMs son los principales usuarios potenciales. Se ha demostrado que mejora el rendimiento en una variedad de benchmarks, incluyendo razonamiento multi-paso (GPQA-Diamond) y generación de código (HumanEval), a menudo superando a los modelos base con un menor costo computacional.

Consideraciones: Aunque Block AttnRes reduce la complejidad de memoria, aún introduce una sobrecarga computacional, aunque marginal. La elección del tamaño del bloque (N) es un hiperparámetro que puede requerir ajuste. Además, como con cualquier técnica de atención, la interpretabilidad puede ser un desafío. Alternativas a AttnRes incluyen otras técnicas de normalización y optimización de conexiones residuales, pero AttnRes ofrece una combinación única de rendimiento y eficiencia.

Temas

desarrollo

Etiquetas

transformers large language models attention mechanisms deep learning residual connections machine learning optimization pre-norm github moonshotai

Entidades mencionadas

Transformers software

pytorch software

Tensor software

RMSNorm software

Attention Residuals software

Linear software

softmax software

GPQA-Diamond event

TriviaQA event

Math event

MBPP event

CMMLU event

C-Eval event

PreNorm software

Kimi Team group_movement

Chen, Guangyu person

Chen Guangcheng es un abogado, activista de los derechos humanos y disidente chino.

Ver en Wikipedia

Zhang, Yu person

Zhang Yuning es un futbolista chino que juega como delantero en el Beijing Guoan de la Superliga de China.

Ver en Wikipedia

Su, Jianlin person

M. Susan Lindee es una bióloga especializada en genética y genómica, la ciencia enfocada en la guerra, como por ejemplo La Guerra Fría. Ejerce como profesora en los campos de ciencia Americana, histor

Ver en Wikipedia

Xu, Weixin person

Peng Xuwei es una deportista china que compite en natación.

Ver en Wikipedia

Pan, Siyuan location

Panniyannur es una ciudad censal situada en el distrito de Kannur en el estado de Kerala (India). Su población es de 22308 habitantes (2011). Se encuentra a 25 km de Kannur y a 66 km de Kozhikode.

Ver en Wikipedia

Wang, Yaoyu person

Wang Anyu, es un actor y cantante chino.

Ver en Wikipedia

Wang, Yucheng person

Wang Yicheng o Wang Yi-Ch'eng poeta chino de Chuyeh, en la provincia de Shandong. Trabajó para el gobierno y sus duras críticas a la autoridad le condujeron a ir al Sur de China.

Ver en Wikipedia

Chen, Guanduo person

Chen Quanguo es un político chino, que se desempeñó como Secretario del Partido Comunista de la Región Autónoma del Tíbet entre 2001 y 2016, y de la Región Autónoma Uigur de Sinkiang entre 2016 y 2021

Ver en Wikipedia

Yin, Bohong location

Este concepto sobre la existencia de dos fuerzas opuestas es de lo más interesante. ¿Sabías que se creó en China hace milenios? Te contamos más sobre él.

Chen, Yutian person

Chen Yu-hang es un escritor taiwanés sinófono contemporáneo.

Ver en Wikipedia

Yan, Junjie person

Yan Junling es un futbolista chino que juega en la demarcación de portero para el Shanghái Port de la Superliga de China.

Ver en Wikipedia

Wei, Ming person

Weiming Bao, es un famoso cantante, presentador, actor y crítico musical. Nació en Taipéi, Taiwán; es el 33avo hijo de Zheng Bao, quién fue un oficial del gobierno en la dinastía Song del norte de Chi

Ver en Wikipedia

Zhang, Y. person

Zhang Yimou es un director de cine chino de gran proyección internacional.

Ver en Wikipedia

Meng, Fanqing person

Fanqing Meng · Vibe Phd · Verified email at sjtu.edu.cn - Homepage · VLMLLMPost-Train And Benchmark · ArticlesCited byPublic accessCo-authors · PrivacyTermsHelp ·

Hong, Chao person

Hong Chau es una actriz de cine y de televisión vietnamita-estadounidense nacida en Tailandia.

Ver en Wikipedia

Xie, Xiaotong person

Also in 2022, she led as Li Peicheng in Shi Cha Hai, a 30-episode family drama streamed on iQiyi. In 2023, she starred as Xie Qiao in Once and Forever, a 35-episode historical drama on Tencent Video.[

Liu, Shaowei person

Liu Shaoqi fue un político chino, uno de los máximos dirigentes del Partido Comunista de China (PCCh) y presidente de la República Popular China.

Ver en Wikipedia

Lu, Enzhe person

Lu Zhengxiang o Lu Cheng-hsiang fue un diplomático, político y sacerdote católico chino. Fue enviado imperial (embajador) en Rusia (1911-1912) y Países Bajos (1905-1907), liderando la delegación de su

Ver en Wikipedia

Tai, Yunpeng person

Here is Yunpeng Tai. I am a geek about mathematics, machine learning and NLP. I’m currently working on the foundamental mechanism of LLMs.

Chen, Yanru person

Chen Yanyan, nacida como Chen Jianyan, fue una actriz y productora de cine china del cine de la República de China (1912–1949), Hong Kong británico y Taiwán.

Ver en Wikipedia

Men, Xin location

La meningitis es una infección caracterizada por la inflamación de las meninges (leptomeninges) que en el 80 % de los casos es causada por virus, en el 15 al 20 % lo es por bacterias y en el resto de

Ver en Wikipedia

Guo, Haiqing person

Gu Taiqing (1799-1877) nació en el seno de una familia manchú acomodada y es considerada como una de las mejores poetas de la dinastía Qing, cuya propiedad intelectual asciende a 1000 escritos, según

Ver en Wikipedia

Charles, Y. person

Charles Tyson Yerkes fue un financiero estadounidense, que tuvo un importante papel en el desarrollo de los sistemas de transporte de masas de Chicago y de Londres. También es recordado por la creació

Ver en Wikipedia

Lu, Haoyu person

Liu Haocun es una actriz china. Hizo su debut como actriz en la película dramática Un segundo (2020) y desde entonces ha aparecido en varios títulos de películas.

Ver en Wikipedia

Sui, Lin organization

Sui Generis fue una banda argentina de música folk y rock, pionera del rock nacional. Estaba formada principalmente por Charly García y Nito Mestre. Es considerada como una de las más importantes en s

Ver en Wikipedia

Zhu, Jinguo person

Zhu Jingyi es una deportista china que compite en tiro con arco, en la modalidad de arco recurvo. Ganó una medalla de plata en el Campeonato Mundial de Tiro con Arco al Aire Libre de 2025, en la prueb

Ver en Wikipedia

Zhou, Zaida person

Zaida Aide Peña Arjona (Heroica Matamoros, Tamaulipas, 5 de marzo de 1981-Heroica Matamoros, Tamaulipas, 1 de diciembre de 2007), conocida como Zayda Peña, fue una cantante mexicana. Se desempeñó como

He, Weiran organization

Heteranthera es un género de plantas acuáticas, perteneciente a la familia Pontederiaceae. Comprende 12 especies originarias de América tropical y Sudáfrica.

Ver en Wikipedia

Huang, Weixiao person

weixiao-huang Follow · More · Overview · Repositories · Projects · Packages · Stars · weixiao-huang Follow · Follow · Graduated from Tsinghua University. Now focusing on Cloud-Native and AI Infra · 82

Xu, Xinran person

Xu Xiang es un clavadista o saltador de trampolín chino especializado en trampolín de 1 metro, donde consiguió ser subcampeón mundial en 2005.

Ver en Wikipedia

HumanEval event

Wang, Yuzhi person

Wang Yu-chi es un político del Kuomintang, el partido nacionalista de la República de China. Ha desempeñado el cargo de ministro del Consejo de Asuntos de China Continental desde el 28 de septiembre d

Ver en Wikipedia

Lai, Guokun location

El Lago Kunming es el lago de la zona central del Palacio de Verano en Pekín, China. Junto con la Colina de la Longevidad (万寿山), el lago Kunming es la esencia de la parte paisajística de los jardines

Ver en Wikipedia

Du, Yulun person

Du Yuming (1903-1981) fue un general chino. Estudió en la Academia Militar de Whampoa y participó en la Expedición del Norte (1926-1928). Durante la Segunda Guerra Mundial, tomó parte en la fallida ca

Ver en Wikipedia

Wu, Yuxin person

Yibing Wu es un tenista de nacionalidad china.

Ver en Wikipedia

Yang, Zhilin person

Yang Yilin es una gimnasta artística china, campeona olímpica en 2008 en el concurso por equipos, y subcampeona del mundo en 2007 en el mismo concurso.

Ver en Wikipedia

Zhou, Xinyu person

Zhou Xiuhua es una deportista china que compitió en remo.

Ver en Wikipedia

MMLU event

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

BBH event