Modelos de lenguaje: nueva técnica mejora el razonamiento

Fuentes: Tree Search Distillation for Language Models using PPO

Este artículo explora una técnica innovadora para mejorar el razonamiento de los modelos de lenguaje, inspirada en el éxito de algoritmos de búsqueda en árbol como AlphaZero en juegos de mesa. La idea central es aplicar la 'Tree Search Distillation' (Destilación de Búsqueda en Árbol) a modelos de lenguaje, aprovechando la capacidad de la búsqueda en árbol para explorar múltiples caminos de razonamiento y luego 'destilar' ese conocimiento en el modelo principal.

¿Cómo funciona? El proceso comienza con un modelo de lenguaje base (en este caso, Qwen-2.5-1.5B-Instruct). Se utiliza Monte Carlo Tree Search (MCTS) para generar 'trayectorias' de razonamiento más robustas. MCTS, normalmente usado en juegos, se adapta para operar a nivel de 'pasos de razonamiento' en lugar de tokens individuales, abordando el problema de la dispersión de la búsqueda en modelos de lenguaje donde muchos tokens son 'ruido'. Se implementa una variante paralela de MCTS, donde múltiples agentes exploran el árbol de búsqueda simultáneamente, fomentando la diversidad de soluciones. Las trayectorias resultantes se almacenan en un buffer compartido y se utilizan para entrenar el modelo base a través de un bucle de aprendizaje por refuerzo online, específicamente usando el algoritmo PPO (Proximal Policy Optimization) y una variante llamada CISPO (Constrained Importance Sampling Policy Optimization). Un aspecto crucial es el diseño de una función de recompensa, inicialmente densa para estabilizar el entrenamiento, pero con evaluación basada en una recompensa dispersa para facilitar la interpretación de los resultados.

Aplicaciones y Casos de Uso: El artículo demuestra la efectividad de esta técnica en el juego 'Countdown', un desafío de aritmética combinatoria. Aunque las puntuaciones absolutas son bajas (reflejando el uso de un modelo relativamente pequeño), el artículo señala una mejora significativa (8.2 puntos porcentuales) en comparación con los métodos de entrenamiento estándar. Esto sugiere que la destilación de búsqueda en árbol podría ser especialmente útil en tareas que requieren razonamiento combinatorio y exploración de múltiples posibilidades, donde la búsqueda secuencial tradicional puede ser menos efectiva. El objetivo es escalar esta técnica a modelos más grandes y con mayor poder computacional para obtener resultados aún más impresionantes.

Consideraciones: El artículo reconoce algunas limitaciones. La adaptación de MCTS a modelos de lenguaje requiere abordar el problema de la granularidad diferente entre la acción del árbol de búsqueda (pasos de razonamiento) y la acción del modelo de lenguaje (tokens). Además, la elección de un entorno de prueba como 'Countdown' es deliberada para resaltar los beneficios de la búsqueda en árbol, pero podría no ser representativa de todas las tareas de lenguaje. El uso de una recompensa dispersa para la evaluación puede dificultar la interpretación directa de las puntuaciones. Finalmente, la infraestructura requerida para ejecutar estos experimentos es considerable, involucrando múltiples GPUs y una arquitectura distribuida.