18 Mar 2026 · Original en inglés · Artículo

Machine Learning: ¿Los benchmarks frenan el avance?

Fuentes: Preface

Este texto explora la paradoja de los benchmarks en el aprendizaje automático (Machine Learning, ML). Los benchmarks, que consisten en dividir los datos en conjuntos de entrenamiento y prueba para evaluar modelos, son la piedra angular del progreso en el campo, pero también son objeto de críticas significativas. Estas críticas apuntan a que los benchmarks pueden fomentar una investigación estrecha, incentivar la manipulación de métricas (Goodhart's Law), llevar a un sobreajuste a los datos de prueba y perpetuar sesgos sociales y éticos, además de generar explotación laboral en la creación de los datasets.

Si bien los benchmarks han sido cruciales para avances como la revolución del aprendizaje profundo (ImageNet) y la competencia geopolítica en IA, su éxito es más una observación retrospectiva que una consecuencia de principios científicos sólidos. Originalmente, los benchmarks surgieron sin una base teórica, y la práctica demostró que sus reglas eran fácilmente ignoradas. La comunidad de ML, a pesar de esto, ha logrado un progreso notable gracias a ellos.

El autor argumenta que la clave para entender por qué los benchmarks 'funcionan' reside en las normas y prácticas sociales de la comunidad de ML, más que en la metodología estadística en sí misma. Específicamente, el hecho de que la comunidad se centre en ordenar los modelos (identificar el mejor) en lugar de evaluar su rendimiento absoluto, proporciona una base teórica más sólida para la validez de los benchmarks. Los rankings tienden a ser más replicables que las métricas de precisión individuales.

El texto distingue dos eras: la era ImageNet, caracterizada por un único benchmark central con datos etiquetados y limpios, y la era de los modelos generativos (especialmente los modelos de lenguaje grandes). La nueva era presenta desafíos adicionales: los modelos se entrenan con datos de internet, lo que dificulta controlar la exposición a datos similares a los de la prueba; y los modelos pueden realizar múltiples tareas, lo que requiere benchmarks más holísticos. Para mitigar el problema de la exposición a datos de entrenamiento similares a los de prueba, se propone el fine-tuning, donde los modelos se ajustan con los mismos datos específicos de la tarea antes de la evaluación.

En resumen, el texto analiza la naturaleza paradójica de los benchmarks en ML: son una práctica imperfecta, criticada por sus limitaciones y sesgos, pero a la vez, un motor fundamental del progreso en el campo.

Etiquetas

machine learning benchmarks artificial intelligence deep learning goodhart's law imagenet large language models data bias statistical measurement fine-tuning

Entidades mencionadas

Machine Learning software

DeepSeek organization

DeepSeek es una empresa china de inteligencia artificial que desarrolla modelos extensos de lenguaje (LLM) de código abierto. Tiene sede en Hangzhou, Zhejiang, es propiedad y está financiada exclusiva

Ver en Wikipedia

MMLU event

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

Blenheim Spaniel creative_work

Welsh Springer creative_work

Goodhart’s law regulation

Freedman’s paradox creative_work

p-values software