El equipo de QwenLM presenta Qwen-AgentWorld, una familia de modelos del mundo basados en lenguaje que predicen la dinámica de entornos a partir de observaciones y acciones, con el objetivo de reforzar el razonamiento y la planificación de agentes generales. El trabajo se articula en dos ejes. En primer lugar, la construcción de modelos fundacionales para la simulación de entornos agenticos: las variantes Qwen-AgentWorld-35B-A3B y Qwen-AgentWorld-397B-A17B, descritas como los primeros modelos de lenguaje capaces de simular entornos agenticos en siete dominios mediante razonamiento con cadena de pensamiento extendida. El entrenamiento se apoya en más de diez millones de trayectorias reales de interacción y sigue un pipeline en tres fases: preentrenamiento continuo (CPT) para inyectar capacidades de modelado del mundo a partir de dinámicas de transición de estado y corpus profesionales aumentados, ajuste fino supervisado (SFT) para activar el razonamiento de predicción del siguiente estado, y aprendizaje por refuerzo (RL) con un marco de recompensas híbrido basado en rúbricas y reglas que afina la fidelidad de la simulación. La evaluación se realiza sobre AgentWorldBench, un benchmark construido a partir de interacciones reales de cinco modelos frontera en nueve benchmarks consolidados, donde Qwen-AgentWorld supera a los modelos frontera existentes según los autores. En segundo lugar, el artículo explora dos paradigmas complementarios. Como simulador desacoplado, Qwen-AgentWorld permite generar miles de entornos reales para entrenar agentes con RL de forma escalable y controlable, mejorando los resultados frente al entrenamiento exclusivamente en entornos reales. Como modelo fundacional unificado, el entrenamiento con modelado del mundo actúa como precalentamiento eficaz para mejorar el rendimiento en siete benchmarks agenticos posteriores. El código se publica en el repositorio de GitHub de QwenLM.
