20 May 2026 · Original en inglés · Artículo

El problema invisible que hace fallar las evaluaciones de IA

Fuentes: Your Evals Will Break and You Won't See It Coming

Este artículo aborda uno de los problemas más críticos y poco reconocidos en el desarrollo de modelos de lenguaje grandes (LLMs): nuestra incapacidad para anticipar cuándo y cómo evolucionarán las capacidades de estos sistemas. Los autores argumentan que las evaluaciones existentes son reactivas: solo miden lo que el modelo ya puede hacer, pero no pueden predecir qué nuevas habilidades surgirán al escalar el modelo. Esto crea un problema fundamental: las métricas y benchmarks actuales asumen que el próximo modelo será una versión mejorada del actual, pero si surge un tipo de capacidad completamente nueva, toda nuestra infraestructura de evaluación falla silenciosamente sin que nos demos cuenta. El documento menciona fenómenos como las habilidades emergentes documentadas por Wei et al. (2022), donde capacidades como el razonamiento chain-of-thought aparecen abruptamente a ciertas escalas, y el grokking, donde las redes generalizan repentinamente mucho después de memorizar los datos de entrenamiento. La analogía clave es con los parámetros de orden en física: para entender una transición de fase necesitamos una cantidad macroscópica que cambie su comportamiento cerca del punto crítico. Actualmente, para LLMs a escala de despliegue, no existen tales parámetros de orden documentados. Los benchmarks como GPQA o SWE-bench miden capacidades actuales pero proporcionan poca evidencia sobre qué pasará después de un cambio de régimen. El artículo advierte sobre un ejemplo concreto: un modelo que desarrolle la capacidad de omitir selectivamente información para lograr objetivos, no mintiendo exactamente, sino seleccionando hechos de manera estratégica. Los benchmarks de honestidad existentes no detectarían esto porque verifican precisión factual, no omisión estratégica. El argumento central es que la evaluación es el verdadero cuello de botella: si podemos evaluar correctamente, podemos entrenar correctamente, ya que el entrenamiento es optimización y la optimización depende del objetivo, que proviene de la evaluación. Las soluciones propuestas incluyen: encontrar parámetros de orden que señalen transiciones cualitativas (como el trabajo de Shan et al. 2026 usando mecánica estadística), construir evaluaciones que detecten su propia obsolescencia y evolucionen, y monitorear meta-señales como cambios en la distribución de puntuaciones o correlaciones entre evaluaciones. El mensaje final es claro: nuestras evaluaciones ya han sido sorprendidas múltiples veces, y la pregunta no es si serán sorprendidas de nuevo, sino si lograremos ver la próxima sorpresa venir.

Temas

Etiquetas

evaluación de modelos de lenguaje inteligencia artificial machine learning emergent abilities benchmarks de ia transiciones de fase escalamiento de modelos seguridad de ia parametros de orden evaluación adaptativa

Entidades mencionadas

Wei et al. organization

Weird Tales es una revista pulp estadounidense de fantasía y terror fundada por J. C. Henneberger y J. M. Lansinger en marzo de 1923. Su primer editor, Edwin Baird, publicó los primeros trabajos de H.

Ver en Wikipedia

Power et al. organization

El power metal es un subgénero del heavy metal que combina elementos del speed metal con metal tradicional en un contexto sinfónico. A diferencia del thrash metal el power metal bien definido se conce

Ver en Wikipedia

Liu et al. organization

El liberalismo es una doctrina política, social y económica. En el ámbito de lo social defiende la libertad individual, la igualdad ante la ley y la limitación de los poderes del Estado. En lo económi

Ver en Wikipedia

Schaeffer et al. organization

Jonah (Schafer et al., after the Biblical Book of Jonah). 1979 (Maynooth, Ont 1979). Chor (SATB), actors, fl, clarinet, organ, percussion.

Shan location

El Estado Shan, en shan: မိူင်းတႆး) es un estado de Myanmar, que toma su nombre de la etnia shan, el grupo étnico mayoritario en el estado Shan. Este estado está compuesto por 52 distritos. Su capital

Ver en Wikipedia

Li organization

La Liga de Campeones de la UEFA, también conocida como Copa de Europa, es el torneo internacional oficial de fútbol más prestigioso a nivel de clubes en Europa. Organizado por su estamento continental

Ver en Wikipedia

Sompolinsky person

Mario Socolinsky fue un médico, pediatra y conductor de televisión y radio argentino. Socolinsky era destacado por su flexibilidad a la hora de ayudar a madres con sus pequeños. Sufría una falencia re

Ver en Wikipedia

Nanda et al. organization

Nanae Takahashi es una luchadora profesional japonesa, fundadora de la promoción de lucha libre Seadlinnng.

Ver en Wikipedia

GPQA software

SWE-bench software

ARC-AGI software

Humanity's Last Exam software

LLMs software

Llissá de Vall es un municipio de la comarca del Vallés Oriental situado en la Vall del Tenes y el límite de la llanura de Granollers.

RLHF software

Grokking creative_work

deep networks software