09 Jun 2026 · Original en inglés · Artículo

Los LLM no superan a los optimizadores clásicos de hiperparámetros, según un estudio comparativo

Fuentes: Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Imagen generada por IA con el prompt: Abstract editorial illustration of a hyperparameter optimization landscape: overlapping contour curves, a central CMA-ES path, an LLM robot annotating code, and a hybrid Centaur figure, soft blue and orange palette, clea — Imagen generada con IA

Un estudio publicado en arXiv evalúa si los modelos de lenguaje grandes (LLM) pueden sustituir a los algoritmos clásicos de optimización de hiperparámetros (HPO) en el entrenamiento de modelos pequeños. Los autores utilizan el repositorio autoresearch, que permite a un agente LLM editar el código de entrenamiento para ajustar hiperparámetros, como banco de pruebas comparativo entre métodos clásicos —CMA-ES y TPE— y agentes basados en LLM, bajo un presupuesto de cómputo fijo.

Con un espacio de búsqueda definido, los métodos clásicos superan de forma consistente a los agentes LLM: evitar fallos por falta de memoria resulta más decisivo que la diversidad de búsqueda. Permitir al LLM editar directamente el código fuente reduce la brecha, pero no la cierra, ni siquiera recurriendo a modelos de frontera como Claude Opus 4.6 y Gemini 3.1 Pro Preview. Los LLM muestran dificultades para mantener el estado de optimización entre ensayos, mientras que los métodos clásicos carecen del conocimiento de dominio que aportan los modelos de lenguaje.

Para combinar ambas fortalezas, los investigadores proponen Centaur, un enfoque híbrido que comparte con un LLM el estado interno interpretable de CMA-ES —vector medio, tamaño de paso y matriz de covarianza—. Centaur logra el mejor resultado en los experimentos, y un LLM de 0,8 B de parámetros basta para superar a todos los métodos clásicos y a los basados exclusivamente en LLM. La edición de código sin restricciones exige modelos mayores para competir con los métodos clásicos. El trabajo también analiza la diversidad de búsqueda, el escalado de modelos entre 0,8 B y modelos de frontera, y la proporción de ensayos propuestos por el LLM en Centaur. La conclusión general es que los LLM resultan más útiles como complemento de los optimizadores clásicos que como sustituto.

Temas

ia ciencia y salud

Etiquetas

llm hyperparameter optimization cma-es tpe autoresearch centaur claude opus 4.6 gemini 3.1 pro preview arxiv machine learning

Entidades mencionadas

Autoresearch software

Claude Opus 4.6 software

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Centaur software

CMA-ES protocol_standard

TPE protocol_standard

Gemini 3.1 Pro Preview software

Fabio Ferreira person

Fábio Miguel Lourenço Ferreira, más conocido como Fábio Ferreira, es un futbolista portugués. Se desempeña como delantero y actualmente juega en el Sydney Olympic, de la Premier League del Estado de N

Ver en Wikipedia

Enlaces

this https URL github.com

this https URL ferreirafabio.github.io