15 Mar 2026 · Original en inglés · Artículo

Modelos de lenguaje: nueva técnica mejora el razonamiento

Fuentes: Tree Search Distillation for Language Models using PPO

Este artículo explora una técnica innovadora para mejorar el razonamiento de los modelos de lenguaje, inspirada en el éxito de algoritmos de búsqueda en árbol como AlphaZero en juegos de mesa. La idea central es aplicar la 'Tree Search Distillation' (Destilación de Búsqueda en Árbol) a modelos de lenguaje, aprovechando la capacidad de la búsqueda en árbol para explorar múltiples caminos de razonamiento y luego 'destilar' ese conocimiento en el modelo principal.

¿Cómo funciona? El proceso comienza con un modelo de lenguaje base (en este caso, Qwen-2.5-1.5B-Instruct). Se utiliza Monte Carlo Tree Search (MCTS) para generar 'trayectorias' de razonamiento más robustas. MCTS, normalmente usado en juegos, se adapta para operar a nivel de 'pasos de razonamiento' en lugar de tokens individuales, abordando el problema de la dispersión de la búsqueda en modelos de lenguaje donde muchos tokens son 'ruido'. Se implementa una variante paralela de MCTS, donde múltiples agentes exploran el árbol de búsqueda simultáneamente, fomentando la diversidad de soluciones. Las trayectorias resultantes se almacenan en un buffer compartido y se utilizan para entrenar el modelo base a través de un bucle de aprendizaje por refuerzo online, específicamente usando el algoritmo PPO (Proximal Policy Optimization) y una variante llamada CISPO (Constrained Importance Sampling Policy Optimization). Un aspecto crucial es el diseño de una función de recompensa, inicialmente densa para estabilizar el entrenamiento, pero con evaluación basada en una recompensa dispersa para facilitar la interpretación de los resultados.

Aplicaciones y Casos de Uso: El artículo demuestra la efectividad de esta técnica en el juego 'Countdown', un desafío de aritmética combinatoria. Aunque las puntuaciones absolutas son bajas (reflejando el uso de un modelo relativamente pequeño), el artículo señala una mejora significativa (8.2 puntos porcentuales) en comparación con los métodos de entrenamiento estándar. Esto sugiere que la destilación de búsqueda en árbol podría ser especialmente útil en tareas que requieren razonamiento combinatorio y exploración de múltiples posibilidades, donde la búsqueda secuencial tradicional puede ser menos efectiva. El objetivo es escalar esta técnica a modelos más grandes y con mayor poder computacional para obtener resultados aún más impresionantes.

Consideraciones: El artículo reconoce algunas limitaciones. La adaptación de MCTS a modelos de lenguaje requiere abordar el problema de la granularidad diferente entre la acción del árbol de búsqueda (pasos de razonamiento) y la acción del modelo de lenguaje (tokens). Además, la elección de un entorno de prueba como 'Countdown' es deliberada para resaltar los beneficios de la búsqueda en árbol, pero podría no ser representativa de todas las tareas de lenguaje. El uso de una recompensa dispersa para la evaluación puede dificultar la interpretación directa de las puntuaciones. Finalmente, la infraestructura requerida para ejecutar estos experimentos es considerable, involucrando múltiples GPUs y una arquitectura distribuida.

Etiquetas

language models monte carlo tree search ppo reinforcement learning reasoning tree search distillation qwen countdown deep learning artificial intelligence

Entidades mencionadas

AlphaZero software

Tree Search Distillation software

PPO software

MCTS software

UCT software

GRPO software

Qwen-2.5-1.5B-Instruct software

Countdown event

CISPO software

GSM8K software

Tree-of-Thoughts software

TS-LLM software

DeepSeek-R1 organization

DeepSeek es una empresa china de inteligencia artificial que desarrolla modelos extensos de lenguaje (LLM) de código abierto. Tiene sede en Hangzhou, Zhejiang, es propiedad y está financiada exclusiva

Ver en Wikipedia

Yao organization

Los yao son una de las 56 minorías étnicas oficialmente reconocidas por el gobierno de la República Popular China. Su población aproximada es de 2.200.000 personas que habitan mayoritariamente en la r

Ver en Wikipedia

Feng location

Feng léase: Fóng es un condado bajo la administración directa de la ciudad-prefectura de Xuzhou, provincia de Jiangsu, al este de la República Popular China. Feng yace en la llanura del Norte de China

Ver en Wikipedia