Este texto explora la paradoja de los benchmarks en el aprendizaje automático (Machine Learning, ML). Los benchmarks, que consisten en dividir los datos en conjuntos de entrenamiento y prueba para evaluar modelos, son la piedra angular del progreso en el campo, pero también son objeto de críticas significativas. Estas críticas apuntan a que los benchmarks pueden fomentar una investigación estrecha, incentivar la manipulación de métricas (Goodhart's Law), llevar a un sobreajuste a los datos de prueba y perpetuar sesgos sociales y éticos, además de generar explotación laboral en la creación de los datasets.
Si bien los benchmarks han sido cruciales para avances como la revolución del aprendizaje profundo (ImageNet) y la competencia geopolítica en IA, su éxito es más una observación retrospectiva que una consecuencia de principios científicos sólidos. Originalmente, los benchmarks surgieron sin una base teórica, y la práctica demostró que sus reglas eran fácilmente ignoradas. La comunidad de ML, a pesar de esto, ha logrado un progreso notable gracias a ellos.
El autor argumenta que la clave para entender por qué los benchmarks 'funcionan' reside en las normas y prácticas sociales de la comunidad de ML, más que en la metodología estadística en sí misma. Específicamente, el hecho de que la comunidad se centre en ordenar los modelos (identificar el mejor) en lugar de evaluar su rendimiento absoluto, proporciona una base teórica más sólida para la validez de los benchmarks. Los rankings tienden a ser más replicables que las métricas de precisión individuales.
El texto distingue dos eras: la era ImageNet, caracterizada por un único benchmark central con datos etiquetados y limpios, y la era de los modelos generativos (especialmente los modelos de lenguaje grandes). La nueva era presenta desafíos adicionales: los modelos se entrenan con datos de internet, lo que dificulta controlar la exposición a datos similares a los de la prueba; y los modelos pueden realizar múltiples tareas, lo que requiere benchmarks más holísticos. Para mitigar el problema de la exposición a datos de entrenamiento similares a los de prueba, se propone el fine-tuning, donde los modelos se ajustan con los mismos datos específicos de la tarea antes de la evaluación.
En resumen, el texto analiza la naturaleza paradójica de los benchmarks en ML: son una práctica imperfecta, criticada por sus limitaciones y sesgos, pero a la vez, un motor fundamental del progreso en el campo.
