Crean en Leipzig un benchmark de matemáticas avanzadas para evaluar a los LLM

Fuentes: Benchmarks in Leipzig
Imagen generada por IA con el prompt: Editorial illustration of mathematicians collaborating in a bright seminar room, whiteboards covered with equations and diagrams, soft natural light, academic atmosphere, modern flat style.
Imagen generada con IA

Un equipo de 49 matemáticos elaboró un conjunto de 100 preguntas de matemáticas a nivel de investigación con respuestas conocidas, en el marco del taller “Benchmarks in Leipzig”, celebrado entre el 1 de abril y el 15 de mayo de 2026. La mayor parte del trabajo se concentró en un taller de tres días con 35 participantes en el Instituto Max Planck de Matemáticas en Ciencias de Leipzig (Alemania), y el resto se completó a distancia en las semanas previas y posteriores.

Los autores evaluaron las preguntas con modelos de lenguaje de gran tamaño (LLM) de última generación en tres fases: un primer intento individual con cinco sistemas; después, una batería de 20 ejecuciones por modelo en tres de esos LLM; y, finalmente, una ronda de tres ejecuciones con dos modelos de razonamiento profundo.

Tras la primera etapa quedaron 41 preguntas sin resolver; al término de la segunda la cifra descendió a 16, y al concluir la tercera solo 2 preguntas quedaron sin solución. Los autores concluyen que las capacidades de razonamiento matemático de los LLM son cada vez más notables y que el nuevo conjunto de preguntas, ligado a problemas reales de investigación, puede servir como prueba exigente para medir hasta dónde llegan estos modelos.