Sakana AI presenta Fugu-Ultra, un sistema multiagente que, según sus propios experimentos, supera en varias tareas a tres modelos de frontera identificados como Model A, B y C. La compañía describe a Fugu-Ultra como un orquestador de múltiples modelos fuertes capaz de rendir por encima de cualquiera de ellos por separado en investigación agentic de aprendizaje automático.
En una prueba basada en el código abierto AutoResearch de Andrej Karpathy, Fugu-Ultra ejecutó 123 experimentos de entrenamiento de un GPT pequeño durante unas 14 horas en una sola GPU H100, editando código de entrenamiento y conservando solo los cambios que reducían la métrica de bits por byte en validación. Obtuvo un BPB medio de 0,9774 ± 0,0019, por delante de Model C (0,9781), Model B (0,9793) y Model A (0,9822), con una mejor ejecución individual en 0,9748.
El sistema se evaluó además en cinco tareas adicionales: reconstrucción del orden de lectura de una carta japonesa clásica de 1610 de Hōshun'in, donde logró una NED de 0,80 frente a 0,24 de los rivales; escritura desde cero de un solver del cubo de Rubik en Python puro, donde promedió 19,72 movimientos frente a 19,76 del mejor competidor en 300 cubos; diseño CAD de un iris mecánico de cámara; cuatro partidas de ajedrez a ciegas contra tres modelos frontera y Stockfish a 2100 Elo, finalizadas en jaque mate; y una simulación de trading sin información futura sobre un activo anonimizado en una ventana de 50 semanas, con rendimiento medio del 19,43 % y resultado final de 11.943 dólares frente a menos del 15 % de los demás.
