Un estudio del Allen Institute for AI compara, nivel por nivel de token, dos modelos de 7.000 millones de parámetros entrenados con la misma receta: Olmo 3, un transformer puro, y Olmo Hybrid, que combina capas de atención con capas recurrentes. Los autores calculan la pérdida emparejada token a token sobre los mismos prefijos y estratifican los resultados por etiquetas lingüísticas, características de copia, estructura de delimitadores y pruebas sintéticas controladas. El análisis, de carácter explicativo y metodológico, busca entender qué predicciones concretas explican la ventaja global del híbrido y si dichas ventajas se corresponden con la motivación teórica de cada arquitectura.
Los resultados son no uniformes. El híbrido presenta menor pérdida en la mayoría de familias de tokens, pero la ganancia es mayor en palabras de contenido de clase abierta (sustantivos, verbos, adjetivos) y menor en muchas palabras funcionales de clase cerrada. En prosa, código y marcado, la ventaja del híbrido es más amplia en los delimitadores de apertura que en los de cierre, y casi desaparece en n-gramas repetidos. En pruebas sintéticas controladas, el híbrido supera al transformer en tareas de memoria de pronombres y seguimiento de entidades, que exigen mantener un estado semántico del documento, mientras que el transformer gana en tareas de coincidencia de corchetes, donde basta con copiar información visible en el prefijo.
El trabajo introduce además el concepto de seguimiento de estado del discurso como extensión más exigente de las pruebas clásicas de state tracking, adecuada para distinguir futuras arquitecturas recurrentes. También propone evaluaciones filtradas a nivel de token como herramienta de diagnóstico durante el preentrenamiento de arquitecturas híbridas.
