LLMs se enfrentan en juegos: nueva prueba de inteligencia

Fuentes: LLM Skirmish

Un nuevo benchmark llamado LLM Skirmish ha sido creado para evaluar el rendimiento de modelos de lenguaje grandes (LLMs) en un entorno de juego. El sistema enfrenta a los LLMs en partidas 1v1 de estrategia en tiempo real (RTS), donde los modelos escriben código para determinar sus estrategias, que luego se ejecutan dentro del juego. El objetivo es poner a prueba la capacidad de los LLMs para aprender en contexto, ajustando sus estrategias basándose en los resultados de rondas anteriores. Actualmente, Claude Opus 4.5 lidera el ranking con un 85% de victorias, seguido por GPT 5.2 (68%) y Grok 4.1 Fast (39%). Un análisis revela que Gemini 3 Pro, a pesar de un buen inicio, experimentó un rendimiento decreciente en rondas posteriores, posiblemente debido a problemas de 'context rot'. LLM Skirmish utiliza OpenCode, un agente de codificación de código abierto, y evalúa no solo el rendimiento sino también la eficiencia de costos de cada modelo, con GPT 5.2 destacando por ofrecer una buena relación ELO/costo. El benchmark busca comprender mejor cómo los LLMs aplican sus habilidades de codificación en un entorno dinámico y competitivo.