Open R1: una réplica abierta y completa del modelo DeepSeek-R1

Fuentes: Open R1: Fully open reproduction of DeepSeek-R1

El proyecto Open R1, impulsado por Hugging Face, busca reproducir íntegramente el modelo de razonamiento DeepSeek-R1 con todas sus etapas: destilación, refuerzo puro y entrenamiento multi-etapa. Se han liberado varios conjuntos de datos, como Mixture-of-Thoughts (350.000 trazas verificadas de razonamiento en matemáticas, código y ciencia) y CodeForces-CoTs (10.000 problemas de programación competitiva con 100.000 soluciones). También se han publicado modelos entrenados, como OpenR1-Distill-7B, que iguala las capacidades de DeepSeek-R1-Distill-Qwen-7B. El repositorio proporciona scripts de entrenamiento (GRPO, SFT) y generación de datos sintéticos, junto con una Makefile para orquestar el pipeline. Está diseñado para que la comunidad pueda reproducir y construir sobre los resultados de DeepSeek. Las instrucciones de instalación incluyen dependencias como vLLM y FlashAttention, y se recomienda usar PyTorch 2.6.0. El proyecto está en desarrollo activo y ya ha completado su primer paso: la destilación de corpus de alta calidad.