Google aprueba Transformer: Innovación en IA

Fuentes: Provided proper attribution is provided, Google hereby grants permission to

El artículo "Attention is All You Need" introduce una nueva arquitectura de red neuronal llamada Transformer, que revolucionó el campo del procesamiento del lenguaje natural y más allá. Tradicionalmente, los modelos de secuencia a secuencia, como los utilizados en traducción automática, se basaban en redes neuronales recurrentes (RNNs) o convolucionales, que son inherentemente secuenciales y difíciles de paralelizar. El Transformer elimina completamente la recurrencia y las convoluciones, confiando únicamente en mecanismos de atención para capturar las dependencias entre diferentes partes de una secuencia.

La clave del Transformer es el 'auto-atención' (self-attention), que permite al modelo considerar todas las posiciones de una secuencia simultáneamente para calcular una representación. Esto facilita una paralelización significativa durante el entrenamiento, reduciendo drásticamente el tiempo de entrenamiento en comparación con los modelos recurrentes. La arquitectura consta de una