06 Jun 2026 · Original en inglés · Resumen IA

Crean en Leipzig un benchmark de matemáticas avanzadas para evaluar a los LLM

Fuentes: Benchmarks in Leipzig

Imagen generada por IA con el prompt: Editorial illustration of mathematicians collaborating in a bright seminar room, whiteboards covered with equations and diagrams, soft natural light, academic atmosphere, modern flat style. — Imagen generada con IA

Un equipo de 49 matemáticos elaboró un conjunto de 100 preguntas de matemáticas a nivel de investigación con respuestas conocidas, en el marco del taller “Benchmarks in Leipzig”, celebrado entre el 1 de abril y el 15 de mayo de 2026. La mayor parte del trabajo se concentró en un taller de tres días con 35 participantes en el Instituto Max Planck de Matemáticas en Ciencias de Leipzig (Alemania), y el resto se completó a distancia en las semanas previas y posteriores.

Los autores evaluaron las preguntas con modelos de lenguaje de gran tamaño (LLM) de última generación en tres fases: un primer intento individual con cinco sistemas; después, una batería de 20 ejecuciones por modelo en tres de esos LLM; y, finalmente, una ronda de tres ejecuciones con dos modelos de razonamiento profundo.

Tras la primera etapa quedaron 41 preguntas sin resolver; al término de la segunda la cifra descendió a 16, y al concluir la tercera solo 2 preguntas quedaron sin solución. Los autores concluyen que las capacidades de razonamiento matemático de los LLM son cada vez más notables y que el nuevo conjunto de preguntas, ligado a problemas reales de investigación, puede servir como prueba exigente para medir hasta dónde llegan estos modelos.

Temas

ciencia y salud

Etiquetas

benchmarks mathematics large language models mathematical reasoning arxiv max planck institute leipzig llm evaluation workshop artificial intelligence

Entidades mencionadas

Leipzig location

Benchmarks in Leipzig event

Max Planck Institute for Mathematics in the Sciences organization

Fundamental questions arising from natural and engineering sciences and economics have always inspired mathematicians to search for new mathematical structures and methods. The interaction between mat

Germany location

Germany Shore es un programa de telerrealidad alemana y suiza transmitida desde el 17 de septiembre de 2021. Es la versión alemana del programa estadounidense Jersey Shore. El programa sigue la vida c

Ver en Wikipedia

arXiv software