Guanming y Bill, fundadores de General Instinct —startup de la promoción P26 de Y Combinator— han presentado InstinctRazor, una herramienta de código abierto orientada a comprimir modelos de inteligencia artificial frontier para ejecutarlos en hardware con recursos limitados como robots y dispositivos edge.
El equipo, con experiencia previa en robótica, detectó que los modelos de mejor rendimiento estaban diseñados pensando en centros de datos con GPUs grandes, anchos de banda de memoria elevados y conectividad fiable, condiciones opuestas a las de los sistemas físicos típicos. InstinctRazor busca preservar la mayor parte de un modelo frontier haciéndolo viable en hardware edge.
El resultado destacado que han compartido es la compresión de Qwen3.5-122B-A10B, un modelo MoE de aproximadamente 245 GB en BF16, hasta un archivo GGUF de 48 GiB. Según la compañía, el modelo resultante es más pequeño que Gemma-4-26B-A4B y lo supera en pruebas como MMLU-Pro y GPQA-D.
El enfoque técnico preserva las partes siempre activas del modelo (router, normas, capas Gated-DeltaNet/SSM y la vía de visión) y aplica una cuantización mucho más agresiva a los expertos enrutados. Después se utiliza destilación on-policy para recuperar la capacidad perdida durante la cuantización.
El modelo también puede correr en una configuración de GPU pequeña en la que los expertos se transmiten desde la RAM del sistema, con un uso pico de VRAM de entre 7,6 y 8 GB con una ventana de contexto de 8k. General Instinct ha publicado el detalle técnico y solicita retroalimentación a quienes despliegan modelos en robots u otros dispositivos edge.
