23 Jun 2026 · Original en inglés · Artículo

VibeThinker-3B: razonamiento verificable en modelos pequeños de 3.000 millones de parámetros

Fuentes: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Investigadores presentan VibeThinker-3B, un modelo denso de 3.000 millones de parámetros diseñado para explorar los límites del razonamiento verificable en modelos de lenguaje de tamaño reducido. El trabajo, publicado como informe técnico en arXiv, parte de la premisa de que las tareas de razonamiento cuya corrección puede comprobarse de forma automática admiten una compresión paramétrica muy agresiva, mientras que el conocimiento general y la competencia de propósito amplio requieren coberturas de parámetros mucho mayores.

El entrenamiento se articula en torno al paradigma Spectrum-to-Signal, una canalización que combina ajuste fino supervisado con currículo, aprendizaje por refuerzo multi-dominio y autodestilación offline. Según los autores, este esquema permite concentrar la capacidad de razonamiento en un núcleo compacto y entrenable de forma eficiente.

En las pruebas, VibeThinker-3B alcanza 94,3 puntos en AIME26, una cifra que sube a 97,1 cuando se aplica escalado en tiempo de prueba a nivel de afirmaciones. En LiveCodeBench v6 logra un Pass@1 del 80,2 % y muestra una sólida generalización fuera de distribución, con una tasa de aceptación del 96,1 % en concursos de LeetCode recientes nunca vistos durante el entrenamiento. Estas puntuaciones lo sitúan en la franja de sistemas de razonamiento de primer nivel, igualando o superando a modelos de referencia mucho más grandes, como DeepSeek V3.2, GLM-5 y Gemini 3 Pro. En IFEval, el modelo obtiene 93,4 puntos, lo que confirma que el refuerzo del razonamiento no compromete el seguimiento estricto de instrucciones.

A partir de estos resultados, los autores extienden su trabajo previo con un modelo de 1.500 millones de parámetros y formalizan la Hipótesis de Compresión-Cobertura Paramétrica: el razonamiento verificable puede comprimirse en núcleos compactos, mientras que el conocimiento de dominio abierto exige una cobertura paramétrica amplia. La conclusión es que los modelos compactos no son meros sustitutos eficientes para despliegue, sino una vía complementaria hacia el rendimiento de frontera en regímenes de alta densidad de capacidad.

Temas

ciencia y salud

Etiquetas

artificial intelligence language models reasoning vibethinker-3b arxiv deepseek v3.2 glm-5 gemini 3 pro reinforcement learning model compression

Entidades mencionadas

GLM-5 software

DeepSeek V3.2 software

LiveCodeBench v6 software

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

LeetCode software

IFEval software

VibeThinker-3B software

Gemini 3 Pro software

AIME26 event

Spectrum-to-Signal paradigm protocol_standard