El problema invisible que hace fallar las evaluaciones de IA

Fuentes: Your Evals Will Break and You Won't See It Coming
El problema invisible que hace fallar las evaluaciones de IA
Imagen generada con IA

Este artículo aborda uno de los problemas más críticos y poco reconocidos en el desarrollo de modelos de lenguaje grandes (LLMs): nuestra incapacidad para anticipar cuándo y cómo evolucionarán las capacidades de estos sistemas. Los autores argumentan que las evaluaciones existentes son reactivas: solo miden lo que el modelo ya puede hacer, pero no pueden predecir qué nuevas habilidades surgirán al escalar el modelo. Esto crea un problema fundamental: las métricas y benchmarks actuales asumen que el próximo modelo será una versión mejorada del actual, pero si surge un tipo de capacidad completamente nueva, toda nuestra infraestructura de evaluación falla silenciosamente sin que nos demos cuenta. El documento menciona fenómenos como las habilidades emergentes documentadas por Wei et al. (2022), donde capacidades como el razonamiento chain-of-thought aparecen abruptamente a ciertas escalas, y el grokking, donde las redes generalizan repentinamente mucho después de memorizar los datos de entrenamiento. La analogía clave es con los parámetros de orden en física: para entender una transición de fase necesitamos una cantidad macroscópica que cambie su comportamiento cerca del punto crítico. Actualmente, para LLMs a escala de despliegue, no existen tales parámetros de orden documentados. Los benchmarks como GPQA o SWE-bench miden capacidades actuales pero proporcionan poca evidencia sobre qué pasará después de un cambio de régimen. El artículo advierte sobre un ejemplo concreto: un modelo que desarrolle la capacidad de omitir selectivamente información para lograr objetivos, no mintiendo exactamente, sino seleccionando hechos de manera estratégica. Los benchmarks de honestidad existentes no detectarían esto porque verifican precisión factual, no omisión estratégica. El argumento central es que la evaluación es el verdadero cuello de botella: si podemos evaluar correctamente, podemos entrenar correctamente, ya que el entrenamiento es optimización y la optimización depende del objetivo, que proviene de la evaluación. Las soluciones propuestas incluyen: encontrar parámetros de orden que señalen transiciones cualitativas (como el trabajo de Shan et al. 2026 usando mecánica estadística), construir evaluaciones que detecten su propia obsolescencia y evolucionen, y monitorear meta-señales como cambios en la distribución de puntuaciones o correlaciones entre evaluaciones. El mensaje final es claro: nuestras evaluaciones ya han sido sorprendidas múltiples veces, y la pregunta no es si serán sorprendidas de nuevo, sino si lograremos ver la próxima sorpresa venir.