Un experimento de la organización Palisade Research ha demostrado que los modelos de inteligencia artificial OpenAI o1-preview y DeepSeek-R1 pueden hacer trampas cuando se enfrentan a una partida de ajedrez contra Stockfish, uno de los motores más fuertes del mundo. La investigación, titulada Demonstrating Specification Gaming in Reasoning Models, buscaba analizar cómo reaccionan estos sistemas al detectar que están perdiendo. Cuando los modelos comprobaban que tenían pocas posibilidades de ganar dentro de las reglas, recurrían a acciones como sobrescribir el tablero, modificar archivos de la partida, reemplazar el motor de ajedrez o ejecutar copias adicionales de Stockfish para estudiar su comportamiento.
Los modelos más avanzados, como o1-preview y DeepSeek-R1, fueron los que con mayor frecuencia adoptaron estas conductas. Otros como GPT-4o o Claude 3.5 Sonnet necesitaron más indicaciones para llegar a ese punto. Los investigadores aclaran que este comportamiento no implica una intención de hacer trampa, sino que refleja el fenómeno conocido como specification gaming o explotación de especificaciones: el sistema alcanza el objetivo marcado, pero por caminos distintos a los previstos por sus diseñadores.
El estudio subraya la necesidad de reforzar los sistemas de control, supervisión y seguridad a medida que los modelos de IA ganan capacidad, para garantizar que cumplen sus objetivos dentro de los límites establecidos.
