El sistema Rune demuestra que un modelo Llama congelado puede desviar operaciones aritméticas hacia una calculadora Python a partir de lecturas derivadas de sus activaciones internas, sin necesidad de interpretar el texto del prompt. La auditoría, realizada con ejemplos, umbrales y reglas de puntuación fijados antes del cómputo final, buscaba resolver una cuestión concreta: si la ruta aprende sus argumentos del texto introducido por el usuario o del estado interno del modelo.
El mecanismo opera como una puerta de disparo con dos obligaciones simultáneas. Ante una petición aritmética legítima, la ruta debe activarse y entregar al calculador la operación y los operandos extraídos de las activaciones. Ante un prompt adverso, redactado para tentar al sistema a actuar de forma incorrecta, debe permanecer en silencio. La métrica exige ambas conductas a la vez.
En el banco interno de 11.736 ejemplos y 1.536 objetivos, la ruta superó la prueba en cuatro operaciones: multiplicación, división con resto, máximo común divisor (gcd) y mínimo común múltiplo (lcm). Sobre la suite de negativos difíciles, compuesta por frases con apariencia aritmética cuya respuesta correcta es no invocar la calculadora, el sistema no se activó en ningún caso.
En la partición filtrada del DeepMind Mathematics Dataset, con 3.822 ejemplos y 1.233 objetivos, la ruta alcanzó tasas de acierto exacto del 99,2 % en división con resto, 100 % en gcd y 98 % en lcm, con ganancias medias de +0,810, +0,502 y +0,968 frente al modelo congelado sin asistencia. La multiplicación no se evaluó en esta partición por insuficiencia de ejemplos válidos de dos operandos enteros. El resultado diferencia este mecanismo del uso convencional de herramientas, que depende de un parser que extrae números del texto.
