Ornith-1.0: una familia de modelos abiertos que aprende sus propios andamios para programar

Fuentes: Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding

Ornith-1.0 es una familia de modelos de código abierto presentados por DeepReinforce AI y diseñados específicamente para tareas de programación agentic, es decir, aquellas en las que el modelo no solo genera código, sino que planifica, ejecuta comandos y resuelve problemas de ingeniería de software de forma autónoma. La familia cubre todo el espectro de tamaños: desde un modelo denso de 9.000 millones de parámetros, apto para ejecutarse en dispositivos边缘, hasta una variante MoE de 397.000 millones de parámetros orientada al máximo rendimiento, pasando por versiones de 31B densa y 35B MoE. Todos están construidos sobre versiones preentrenadas de Gemma 4 y Qwen 3.5.

La principal novedad de Ornith-1.0 es un marco de entrenamiento auto-mejorable: en lugar de depender de andamios (harnesses) diseñados por humanos para guiar la generación de soluciones durante el aprendizaje por refuerzo, el modelo aprende a generar tanto las soluciones como los propios andamios específicos para cada tarea. Cada paso de RL se divide en dos fases: primero propone un andamio refinado y, condicionado a ese andamio, genera una solución; la recompensa se propaga a ambas etapas, creando un bucle en el que la orquestación co-evoluciona con la política del modelo.

En los benchmarks de programación agentic, Ornith-1.0 establece un nuevo estado del arte entre modelos abiertos de tamaño comparable. La versión insignia, Ornith-1.0-397B, alcanza 77,5 en Terminal-Bench 2.1 y 82,4 en SWE-Bench Verified, superando a Claude Opus 4.7 en ambas pruebas y a otros modelos abiertos como MiniMax M3 (66,0 y 80,5) o DeepSeek-V4-Pro (67,9 y 80,6). La versión de 35B, con muchos menos parámetros, supera a Qwen 3.5-397B en Terminal-Bench 2.1 (64,2 frente a 53,5). El modelo de 9B, desplegable en dispositivos边缘, iguala o supera a modelos mucho mayores como Gemma 4-31B.

El artículo describe también las defensas contra el reward hacking (como la lectura de tests o la copia de soluciones oráculo) mediante un LLM juez congelado que actúa como veto, y el uso de una estrategia de RL asíncrono tipo pipeline para gestionar rolloutslargos con datos fuera de política.