12 Jun 2026 · Original en inglés · Artículo

MTG Bench: un benchmark para medir la inteligencia de los LLM jugando a Magic

Fuentes: MTG Bench: Testing how well LLMs can play magic

El benchmark MTG Bench evalúa la capacidad de los modelos de lenguaje de gran escala (LLM) para jugar a Magic: The Gathering de forma autónoma, sin depender de un motor de reglas que valide cada movimiento. Desarrollado por Callum Ferguson, el sistema utiliza un servidor MCP (Model Context Protocol) que ofrece operaciones básicas de biblioteca (robar carta, devolver al fondo, barajar) y deja que el LLM gestione el resto de la lógica de juego. El objetivo es medir cuán inteligente debe ser un modelo para ejecutar una partida legal sin ayuda externa.

El benchmark se compone de simulaciones por turno, donde el LLM recibe el estado de la mesa y debe decidir acciones legales. Se registran tanto aciertos como errores. Por ejemplo, se muestran casos exitosos donde un modelo como Gemini 3.5 Flash ejecuta secuencias complejas de scry, discover y tutor, así como fallos típicos como robar una carta por error y no poder deshacer la jugada.

Ferguson optó por usar un servidor MCP remoto en lugar de llamadas a funciones tradicionales porque OpenAI y Anthropic permiten integrar un MCP en una sola petición API, lo que evita el sobrecoste del caching de tokens de entrada en cada iteración. El artículo detalla cómo el cobro de tokens cacheados puede dispararse en bucles de agente: un sistema prompt de 10.000 tokens tras diez llamadas a herramientas genera 110.000 tokens facturados, cifra que se reduce drásticamente si el bucle lo maneja el proveedor. Por ejemplo, GPT-5.5 (medium) promedió 11.386 tokens de entrada por turno, mientras que Claude Fable-5 alcanzó 51.610.

Otra observación importante es que el benchmark penaliza a los modelos demasiado ansiosos por llamar a herramientas. En simulaciones de Magic, si se roba una carta y luego se devuelve, la información obtenida invalida la partida. Un fallo recurrente es que el modelo inicia una acción, se da cuenta del error y no puede corregirla. Para mitigarlo, las funciones del servidor MCP incluyen un campo "reason" obligatorio, que a veces los modelos usan de forma absurda, como "cancel" o "noop".

Ferguson creó MTG Auto Deck como experimento de "vibe coding" (programación asistida por IA) sin escribir código manualmente. El proyecto está en GitHub y permite usar claves API propias o llama.cpp local. No recomienda la versión de pago actual porque el coste y la lentitud de los modelos que juegan bien hacen que simular turnos uno a uno sea más lento que hacer goldfishing manual. Sin embargo, prevé que con modelos más baratos y rápidos la aplicación podría ser útil para ejecutar cientos de simulaciones y obtener estadísticas de rendimiento de cartas o incluso optimizar mazos de forma automática.

Temas

ia empresas

Etiquetas

mtg bench llm magic the gathering mcp server openai anthropic gpt-5.5 claude fable-5 mtg auto deck callum ferguson

Entidades mencionadas

MCP protocol_standard

GPT-5.5 software

Gemini 3.5 Flash software

Callum Ferguson person

Callum James Ferguson (born 21 November 1984) is a former Australian cricketer and commentator who has represented Australia in all three forms of international cricket. He also represented South Aust

Claude Fable-5 software

MTG Auto Deck software

MTG Bench software

llama.cpp software

Se llama copla es un concurso musical dedicado a la interpretación de copla emitido en Andalucía (España) por Canal Sur Televisión, y en el resto de España y el extranjero por otras plataformas a trav

Ver en Wikipedia

Anthropic organization

Anthropic es una empresa estadounidense de investigación en IA fundada por exmiembros de OpenAI. La noticia cuestiona las afirmaciones de Anthropic sobre la capacidad de sus modelos para reparar vulne

Ver en Wikipedia

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

Enlaces

Fable 5 plays a scry land and looks at the top card of the deck app.mtgautodeck.com

Gemini 3.5 flash performs complex turn with scry, discover, and tutor effects app.mtgautodeck.com

scry mtg.fandom.com

surveil mtg.fandom.com

this example from Opus 4.8 app.mtgautodeck.com

project is on GitHub github.com