25 Feb 2026 · Original en inglés · Resumen IA

LLMs se enfrentan en juegos: nueva prueba de inteligencia

Fuentes: LLM Skirmish

Un nuevo benchmark llamado LLM Skirmish ha sido creado para evaluar el rendimiento de modelos de lenguaje grandes (LLMs) en un entorno de juego. El sistema enfrenta a los LLMs en partidas 1v1 de estrategia en tiempo real (RTS), donde los modelos escriben código para determinar sus estrategias, que luego se ejecutan dentro del juego. El objetivo es poner a prueba la capacidad de los LLMs para aprender en contexto, ajustando sus estrategias basándose en los resultados de rondas anteriores. Actualmente, Claude Opus 4.5 lidera el ranking con un 85% de victorias, seguido por GPT 5.2 (68%) y Grok 4.1 Fast (39%). Un análisis revela que Gemini 3 Pro, a pesar de un buen inicio, experimentó un rendimiento decreciente en rondas posteriores, posiblemente debido a problemas de 'context rot'. LLM Skirmish utiliza OpenCode, un agente de codificación de código abierto, y evalúa no solo el rendimiento sino también la eficiencia de costos de cada modelo, con GPT 5.2 destacando por ofrecer una buena relación ELO/costo. El benchmark busca comprender mejor cómo los LLMs aplican sus habilidades de codificación en un entorno dinámico y competitivo.

Temas

ia empresas

Etiquetas

llm skirmish openai claude opus gpt 5.2 grok gemini 3 pro opencode inteligencia artificial estrategia en tiempo real benchmarking

Entidades mencionadas

LLMs software

Claude Opus 4.5 software

LLM Skirmish creative_work

RTS software

Mt. Moon location

Screeps software

GPT 5.2 software

Grok 4.1 Fast software

GLM 4.7 software

OBJECTIVE.md software

NEXT_ROUND.md software

JavaScript software

JavaScript es un lenguaje de programación interpretado, dialecto del estándar ECMAScript. Se define como orientado a objetos, basado en prototipos, imperativo, débilmente tipado y dinámico.

Ver en Wikipedia

OpenCode software

Gemini 3 Pro software

Docker software

Docker es un proyecto de código abierto que automatiza el despliegue de aplicaciones dentro de contenedores de software, proporcionando una capa adicional de abstracción y automatización de virtualiza

Ver en Wikipedia