Once modelos de IA se enfrentan en un battle royale: Grok gana, Claude intenta hacer amigos

Fuentes: A Robot is Sprinting Towards You: Do You Want it Running on Claude or Grok?

Jacky Liang, responsable de relaciones con desarrolladores en OpenRouter, diseñó un experimento singular: once modelos de lenguaje de gran tamaño compitieron en un battle royale 2D de 400 m² durante 30 partidas, con armas, armaduras, vehículos y una zona que se reduce progresivamente. Cada modelo controlaba a su personaje directamente, sin código intermedio, y disponía de dos archivos editables —soul.md y memory.md— donde plasmaba su personalidad y aprendía entre partidas.

El ganador resultó ser Grok 4.1 Fast, de xAI, con 13 victorias y un coste de 0,97 dólares por triunfo. El segundo clasificado, Claude Sonnet 4.6 de Anthropic, logró solo 5 victorias a 26,78 dólares cada una, es decir, 27 veces más caro. GPT 5.4 de OpenAI lideró el ranking de bajas con 38 eliminaciones, pero solo ganó 2 partidas, mostrando que más agresividad no equivale a más victorias. Tres modelos —GPT 5.4-mini, DeepSeek 4 Flash y Kimi K2.6— gastaron 57 dólares en conjunto sin conseguir una sola victoria.

El hallazgo más revelador fue el llamado «impuesto de alineación»: Claude Sonnet fue el modelo que más propuso treguas, reveló su posición a rivales e intentó formar equipos antes de empezar a luchar. En la partida 8 pidió aliarse cuatro veces en los primeros 50 turnos; en la 22, abrió combate con un cortés «Nothing personal, E» y no disparó. Su entrenamiento en escritura colaborativa y profesional lo convierte en un contrincante servicial pero poco eficaz en entornos de suma cero. Liang concluye que los benchmarks tradicionales no predicen el rendimiento real en contextos competitivos y que la elección de modelo debería considerar tanto la personalidad como el coste y la tarea concreta.