27 Jun 2026 · Original en inglés · Artículo

Estudio a nivel de token revela qué predicen mejor los modelos híbridos frente a los transformers

Fuentes: Comparing Transformers and Hybrid Models at the Token Level

Un estudio del Allen Institute for AI compara, nivel por nivel de token, dos modelos de 7.000 millones de parámetros entrenados con la misma receta: Olmo 3, un transformer puro, y Olmo Hybrid, que combina capas de atención con capas recurrentes. Los autores calculan la pérdida emparejada token a token sobre los mismos prefijos y estratifican los resultados por etiquetas lingüísticas, características de copia, estructura de delimitadores y pruebas sintéticas controladas. El análisis, de carácter explicativo y metodológico, busca entender qué predicciones concretas explican la ventaja global del híbrido y si dichas ventajas se corresponden con la motivación teórica de cada arquitectura.

Los resultados son no uniformes. El híbrido presenta menor pérdida en la mayoría de familias de tokens, pero la ganancia es mayor en palabras de contenido de clase abierta (sustantivos, verbos, adjetivos) y menor en muchas palabras funcionales de clase cerrada. En prosa, código y marcado, la ventaja del híbrido es más amplia en los delimitadores de apertura que en los de cierre, y casi desaparece en n-gramas repetidos. En pruebas sintéticas controladas, el híbrido supera al transformer en tareas de memoria de pronombres y seguimiento de entidades, que exigen mantener un estado semántico del documento, mientras que el transformer gana en tareas de coincidencia de corchetes, donde basta con copiar información visible en el prefijo.

El trabajo introduce además el concepto de seguimiento de estado del discurso como extensión más exigente de las pruebas clásicas de state tracking, adecuada para distinguir futuras arquitecturas recurrentes. También propone evaluaciones filtradas a nivel de token como herramienta de diagnóstico durante el preentrenamiento de arquitecturas híbridas.

Etiquetas

transformers hybrid language models token-level analysis state tracking olmo 3 olmo hybrid attention mechanism recurrent layers language modeling pretraining diagnostics

Entidades mencionadas

Allen Institute for AI organization

Olmo Hybrid software

Waleffe et al., 2024 creative_work

Merrill et al., 2026 creative_work

Merrill et al., 2024 creative_work

Grazzi et al., 2025 creative_work

Olmo et al., 2026 creative_work

Olmo 3 software

Yanhong Li person

Ma Yanhong es una gimnasta artística china, especialista en la prueba de las barras asimétricas con la que ha logrado ser campeona olímpica en 1984.

Ver en Wikipedia

William Merrill person

William Merritt Chase pintor impresionista y maestro estadounidense.

Ver en Wikipedia