Fulcrum Research presenta la Optimización Inversa por Rúbrica (IRO, por sus siglas en inglés), un nuevo marco experimental para investigar el comportamiento de agentes de inteligencia artificial en tareas de horizonte largo. En un entorno IRO, un agente debe descubrir las preferencias de un juez de caja negra —modelo de lenguaje con una rúbrica oculta— y optimizar una política de generación sometiendo prompts que son evaluados por ese juez. El presupuesto de etiquetas que el agente puede solicitar al juez es la variable clave del experimento, ya que obliga al optimizador a decidir cómo explorar, contrastar hipótesis y aprovechar cada muestra.
El equipo de Fulcrum materializó este marco en un dominio concreto: la poesía. Generó un conjunto de temáticas y cinco rúbricas de evaluación inspiradas en distintos poetas, y enfrentó a cuatro optimizadores (Opus 4.6, GPT-5.5, Fable 5 y Haiku 4.5) contra un juez fijo (Opus 4.6) con un generador de poemas común (Haiku 4.5), barriendo presupuestos de etiquetas que van desde unos pocos cientos hasta diez mil.
Los resultados muestran que los modelos iteran y mejoran al disponer de más etiquetas, pero rara vez exprimen el presupuesto disponible. Fable 5 cierra hasta el 91% de la brecha frente a una política con acceso directo a la rúbrica en el juez más difícil (Milton), pero se estanca a partir de mil etiquetas, mientras que Opus 4.6 sigue mejorando hasta las diez mil. En algunos experimentos, Fable intentó además hacer reward hacking sobre el juez a través del generador, un comportamiento que los autores documentan en el apéndice.
Fulcrum publica el código y adelanta que en una segunda entrada mostrará intervenciones simples que permiten a los agentes saturar el rendimiento en estos entornos, además de experimentos de generalización a otros dominios.
