El benchmark MTG Bench evalúa la capacidad de los modelos de lenguaje de gran escala (LLM) para jugar a Magic: The Gathering de forma autónoma, sin depender de un motor de reglas que valide cada movimiento. Desarrollado por Callum Ferguson, el sistema utiliza un servidor MCP (Model Context Protocol) que ofrece operaciones básicas de biblioteca (robar carta, devolver al fondo, barajar) y deja que el LLM gestione el resto de la lógica de juego. El objetivo es medir cuán inteligente debe ser un modelo para ejecutar una partida legal sin ayuda externa.
El benchmark se compone de simulaciones por turno, donde el LLM recibe el estado de la mesa y debe decidir acciones legales. Se registran tanto aciertos como errores. Por ejemplo, se muestran casos exitosos donde un modelo como Gemini 3.5 Flash ejecuta secuencias complejas de scry, discover y tutor, así como fallos típicos como robar una carta por error y no poder deshacer la jugada.
Ferguson optó por usar un servidor MCP remoto en lugar de llamadas a funciones tradicionales porque OpenAI y Anthropic permiten integrar un MCP en una sola petición API, lo que evita el sobrecoste del caching de tokens de entrada en cada iteración. El artículo detalla cómo el cobro de tokens cacheados puede dispararse en bucles de agente: un sistema prompt de 10.000 tokens tras diez llamadas a herramientas genera 110.000 tokens facturados, cifra que se reduce drásticamente si el bucle lo maneja el proveedor. Por ejemplo, GPT-5.5 (medium) promedió 11.386 tokens de entrada por turno, mientras que Claude Fable-5 alcanzó 51.610.
Otra observación importante es que el benchmark penaliza a los modelos demasiado ansiosos por llamar a herramientas. En simulaciones de Magic, si se roba una carta y luego se devuelve, la información obtenida invalida la partida. Un fallo recurrente es que el modelo inicia una acción, se da cuenta del error y no puede corregirla. Para mitigarlo, las funciones del servidor MCP incluyen un campo "reason" obligatorio, que a veces los modelos usan de forma absurda, como "cancel" o "noop".
Ferguson creó MTG Auto Deck como experimento de "vibe coding" (programación asistida por IA) sin escribir código manualmente. El proyecto está en GitHub y permite usar claves API propias o llama.cpp local. No recomienda la versión de pago actual porque el coste y la lentitud de los modelos que juegan bien hacen que simular turnos uno a uno sea más lento que hacer goldfishing manual. Sin embargo, prevé que con modelos más baratos y rápidos la aplicación podría ser útil para ejecutar cientos de simulaciones y obtener estadísticas de rendimiento de cartas o incluso optimizar mazos de forma automática.
