22 May 2026 · Original en inglés · Artículo

CODA optimiza Transformers al evitar mover datos a memoria global durante cálculos

Fuentes: CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

CODA es una nueva abstracción de kernel GPU que revoluciona la forma de ejecutar los componentes no attention de los Transformers. El problema que resuelve es fundamental: mientras que las operaciones de multiplicación de matrices (GEMM) están altamente optimizadas y utilizan eficientemente la memoria del chip, otras operaciones como normalización, activaciones y conexiones residuales requieren mover grandes tensores hacia la memoria global entre cálculos, creando cuellos de botella en el rendimiento. CODA propone una solución elegante: en lugar de ejecutar estas operaciones como kernels separados después de cada GEMM, reparametriza algebraicamente todas estas operaciones para ejecutarse como un 'epílogo' diretamente en el chip, antes de que el resultado del GEMM sea escrito en memoria. Esta abstracción fijael mainloop del GEMM (la parte másheavy computationally) y expone un conjunto pequeño de primitivas de epílogo que permiten escalar, realizar reducciones, transformaciones pairwise y acumulaciones. El resultado es una interfaz constrained que preserva la estructura de rendimiento de GEMMs escritos por expertos pero sigue siendo lo suficientemente expresiva para cubrir prácticamente toda la computación no-attention en los passes forward y backward de un bloque Transformer estándar. Los autores demuestran que kernels CODA, ya sean escritos por humanos o por LLMs, alcanzan alto rendimiento en cargas de trabajo representativas de Transformers, indicando que esta aproximación ofrece un camino práctico para combinar la productividad a nivel de framework con la eficiencia a nivel de hardware.

Etiquetas

machine learning transformers gpu optimization deep learning computational efficiency neural network architecture kernel programming

Entidades mencionadas

transformer software

CORE Recommender organization

CODA software

Gotit.pub organization

An open platform to discuss research · Annotate, Q&A, discuss any article with the research community - directly on the article · Or drag and drop a PDF · Examples: · article · 2302.13971v1: · LLa

CatalyzeX organization

Se denomina verso cataléctico a aquel métricamente incompleto, es decir, o bien le falta una sílaba, o bien, en el caso de la de la poesía griega y latina, que tiene uno de sus pies imperfecto al fina

Ver en Wikipedia

GEMM software

arXivLabs organization

Absalón Gechman, más conocido como Ariel Absalón, fue un actor y director teatral con una amplia trayectoria en la escena argentina.

Ver en Wikipedia

GPU hardware

Una unidad de procesamiento gráfico o procesador gráfico es un coprocesador dedicado al procesamiento de gráficos u operaciones de coma flotante, para aligerar la carga de trabajo del procesador/CPU c

Ver en Wikipedia

IArxiv Recommender organization

alphaXiv organization

Alphaville es un grupo musical alemán de synth pop que fue muy popular en la década de 1980. Sus canciones más populares son Forever Young, Big in Japan, Jet Set y Sounds Like a Melody, todas contenid

Ver en Wikipedia

DagsHub organization

Dash Berlin es un grupo neerlandés de trance, progressive trance, y progressive house. En un principio estaba formado por Eelke Kalberg y Sebastiaan Molijn, y poco después se unió Jeffrey Sutorius, qu

Ver en Wikipedia

ScienceCast organization

Science Fantasy, que también apareció con los títulos Impulse y SF Impulse, fue una revista británica de fantasía y ciencia ficción lanzada en 1950 por Nova Publications como complemento de New Worlds

Ver en Wikipedia

Influence Flower organization

Hugging Face organization

Enlaces

What is the Explorer? info.arxiv.org

What is alphaXiv? alphaxiv.org

What is Huggingface? huggingface.co

Learn more about arXivLabs info.arxiv.org