24 Jun 2026 · Original en inglés · Artículo

Qwen-AgentWorld: modelos del mundo en lenguaje para agentes generales

Fuentes: Qwen-AgentWorld: Language World Models for General Agents

El equipo de QwenLM presenta Qwen-AgentWorld, una familia de modelos del mundo basados en lenguaje que predicen la dinámica de entornos a partir de observaciones y acciones, con el objetivo de reforzar el razonamiento y la planificación de agentes generales. El trabajo se articula en dos ejes. En primer lugar, la construcción de modelos fundacionales para la simulación de entornos agenticos: las variantes Qwen-AgentWorld-35B-A3B y Qwen-AgentWorld-397B-A17B, descritas como los primeros modelos de lenguaje capaces de simular entornos agenticos en siete dominios mediante razonamiento con cadena de pensamiento extendida. El entrenamiento se apoya en más de diez millones de trayectorias reales de interacción y sigue un pipeline en tres fases: preentrenamiento continuo (CPT) para inyectar capacidades de modelado del mundo a partir de dinámicas de transición de estado y corpus profesionales aumentados, ajuste fino supervisado (SFT) para activar el razonamiento de predicción del siguiente estado, y aprendizaje por refuerzo (RL) con un marco de recompensas híbrido basado en rúbricas y reglas que afina la fidelidad de la simulación. La evaluación se realiza sobre AgentWorldBench, un benchmark construido a partir de interacciones reales de cinco modelos frontera en nueve benchmarks consolidados, donde Qwen-AgentWorld supera a los modelos frontera existentes según los autores. En segundo lugar, el artículo explora dos paradigmas complementarios. Como simulador desacoplado, Qwen-AgentWorld permite generar miles de entornos reales para entrenar agentes con RL de forma escalable y controlable, mejorando los resultados frente al entrenamiento exclusivamente en entornos reales. Como modelo fundacional unificado, el entrenamiento con modelado del mundo actúa como precalentamiento eficaz para mejorar el rendimiento en siete benchmarks agenticos posteriores. El código se publica en el repositorio de GitHub de QwenLM.

Temas

desarrollo seguridad

Etiquetas

qwen-agentworld world models language models agentic ai reinforcement learning qwenlm benchmark agentworldbench chain-of-thought open source

Entidades mencionadas

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Github software

Qwen-AgentWorld software

Qwen-AgentWorld-35B-A3B software

Qwen-AgentWorld-397B-A17B software

AgentWorldBench software

QwenLM organization

Qwen es una familia de grandes modelos de lenguaje desarrollados por Alibaba. En julio de 2024, fue clasificado como el mejor modelo de idioma chino en algunos puntos de referencia y el tercero a ni

Ver en Wikipedia

Enlaces

this https URL github.com