Un estudio publicado en arXiv evalúa si los modelos de lenguaje grandes (LLM) pueden sustituir a los algoritmos clásicos de optimización de hiperparámetros (HPO) en el entrenamiento de modelos pequeños. Los autores utilizan el repositorio autoresearch, que permite a un agente LLM editar el código de entrenamiento para ajustar hiperparámetros, como banco de pruebas comparativo entre métodos clásicos —CMA-ES y TPE— y agentes basados en LLM, bajo un presupuesto de cómputo fijo.
Con un espacio de búsqueda definido, los métodos clásicos superan de forma consistente a los agentes LLM: evitar fallos por falta de memoria resulta más decisivo que la diversidad de búsqueda. Permitir al LLM editar directamente el código fuente reduce la brecha, pero no la cierra, ni siquiera recurriendo a modelos de frontera como Claude Opus 4.6 y Gemini 3.1 Pro Preview. Los LLM muestran dificultades para mantener el estado de optimización entre ensayos, mientras que los métodos clásicos carecen del conocimiento de dominio que aportan los modelos de lenguaje.
Para combinar ambas fortalezas, los investigadores proponen Centaur, un enfoque híbrido que comparte con un LLM el estado interno interpretable de CMA-ES —vector medio, tamaño de paso y matriz de covarianza—. Centaur logra el mejor resultado en los experimentos, y un LLM de 0,8 B de parámetros basta para superar a todos los métodos clásicos y a los basados exclusivamente en LLM. La edición de código sin restricciones exige modelos mayores para competir con los métodos clásicos. El trabajo también analiza la diversidad de búsqueda, el escalado de modelos entre 0,8 B y modelos de frontera, y la proporción de ensayos propuestos por el LLM en Centaur. La conclusión general es que los LLM resultan más útiles como complemento de los optimizadores clásicos que como sustituto.
