Algoritmo de planos de corte optimiza tokenizadores de LLM

Fuentes: Cutting-plane algorithm finds optimal LLM tokenizersT4

La tokenización es un paso fundamental en el entrenamiento de modelos de lenguaje de gran escala (LLM). Consiste en dividir el texto en unidades discretas llamadas tokens, cada una asociada a una secuencia de bytes. La elección del vocabulario de tokens, es decir, el mapeo entre tokens y bytes, impacta directamente en la eficiencia de compresión de los datos de entrenamiento. Tradicionalmente, se utiliza el codificador de pares de bytes (BPE), un algoritmo voraz que no garantiza optimalidad. Recientemente, Tempus et al. demostraron que la tokenización puede formularse como un problema de programación lineal entera (ILP). En esta formulación, se introduce una variable binaria por cada posible entrada del vocabulario (color), y variables de arista para cada ocurrencia de una entrada en el conjunto de datos. El objetivo es minimizar el número total de tokens usados para codificar los datos, sujeto a restricciones de flujo y de cardinalidad del vocabulario. Sin embargo, resolver el ILP directamente es computacionalmente intratable. Por ello, los autores relajan el problema a un programa lineal continuo, obteniendo cotas inferiores y superiores, y luego redondean las variables para obtener soluciones enteras subóptimas. En este artículo se presenta un enfoque alternativo basado en planos de corte (cutting planes), inspirado en el éxito de esta técnica para el problema del viajante (TSP). En lugar de redondear, se añaden restricciones adicionales (cortes) al programa lineal continuo de forma iterativa, hasta que la solución óptima se vuelve entera. El autor utilizó un enfoque de búsqueda sistemática para generar cortes, dada la dificultad de diseñarlos manualmente. A pesar de que el algoritmo puede encontrar el tokenizador óptimo en ciertos escenarios, se señalan limitaciones importantes: el estado del arte previo ya estaba cerca del óptimo (dentro del 1 %), un tokenizador óptimo en los datos de entrenamiento puede no generalizar bien a datos de prueba, y la ineficiencia subóptima puede compensarse aumentando ligeramente el tamaño del vocabulario. Además, el método actual requiere una pretokenización del conjunto de datos, lo que restringe la optimalidad al ámbito de esa partición. El trabajo abre una vía prometedora para mejorar la tokenización mediante técnicas de optimización combinatoria, aunque su utilidad práctica aún está por demostrarse.