El modelo M3 con MaxProof supera el umbral de oro en IMO y USAMO

Fuentes: MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

Un nuevo marco de escalado en tiempo de prueba, denominado MaxProof, ha permitido que el modelo M3 de MiniMax alcance 35 sobre 42 en la Olimpiada Internacional de Matemáticas (IMO) de 2025 y 36 sobre 42 en la Olimpiada de Matemáticas de Estados Unidos (USAMO) de 2026, superando el umbral humano de medalla de oro en ambas competiciones. Los resultados se dieron a conocer en un artículo publicado en arXiv el 11 de junio de 2026.

MaxProof es un sistema de escalado a nivel de población que emplea aprendizaje por refuerzo generativo-verificador. El modelo M3 fue entrenado en tres capacidades orientadas a la demostración matemática: generación de pruebas, verificación de pruebas y reparación de pruebas condicionada a crítica. Para ello se utilizó un verificador generativo de defensa en profundidad diseñado para lograr una baja tasa de falsos positivos. Estas capacidades se fusionaron en un único modelo M3 publicado.

En tiempo de prueba, MaxProof trata al modelo como generador, verificador, refinador y clasificador. Realiza una búsqueda sobre una población de pruebas candidatas y selecciona una final mediante un proceso de torneo. Con este escalado, el modelo M3 no solo iguala, sino que excede el rendimiento de los medallistas de oro humanos, marcando un hito en la automatización de la demostración matemática a nivel de competición.