Investigadores presentan VibeThinker-3B, un modelo denso de 3.000 millones de parámetros diseñado para explorar los límites del razonamiento verificable en modelos de lenguaje de tamaño reducido. El trabajo, publicado como informe técnico en arXiv, parte de la premisa de que las tareas de razonamiento cuya corrección puede comprobarse de forma automática admiten una compresión paramétrica muy agresiva, mientras que el conocimiento general y la competencia de propósito amplio requieren coberturas de parámetros mucho mayores.
El entrenamiento se articula en torno al paradigma Spectrum-to-Signal, una canalización que combina ajuste fino supervisado con currículo, aprendizaje por refuerzo multi-dominio y autodestilación offline. Según los autores, este esquema permite concentrar la capacidad de razonamiento en un núcleo compacto y entrenable de forma eficiente.
En las pruebas, VibeThinker-3B alcanza 94,3 puntos en AIME26, una cifra que sube a 97,1 cuando se aplica escalado en tiempo de prueba a nivel de afirmaciones. En LiveCodeBench v6 logra un Pass@1 del 80,2 % y muestra una sólida generalización fuera de distribución, con una tasa de aceptación del 96,1 % en concursos de LeetCode recientes nunca vistos durante el entrenamiento. Estas puntuaciones lo sitúan en la franja de sistemas de razonamiento de primer nivel, igualando o superando a modelos de referencia mucho más grandes, como DeepSeek V3.2, GLM-5 y Gemini 3 Pro. En IFEval, el modelo obtiene 93,4 puntos, lo que confirma que el refuerzo del razonamiento no compromete el seguimiento estricto de instrucciones.
A partir de estos resultados, los autores extienden su trabajo previo con un modelo de 1.500 millones de parámetros y formalizan la Hipótesis de Compresión-Cobertura Paramétrica: el razonamiento verificable puede comprimirse en núcleos compactos, mientras que el conocimiento de dominio abierto exige una cobertura paramétrica amplia. La conclusión es que los modelos compactos no son meros sustitutos eficientes para despliegue, sino una vía complementaria hacia el rendimiento de frontera en regímenes de alta densidad de capacidad.
