PrismML presenta Bonsai Image 4B: generación de imágenes en el dispositivo

Fuentes: PrismML introduces Bonsai Image 4B: image generation on local devices
Imagen generada por IA con el prompt: A smartphone on a wooden desk displaying a colorful AI-generated fantasy landscape, with abstract geometric shapes floating above, digital art style, no faces or text.
Imagen generada con IA

PrismML ha lanzado Bonsai Image 4B, una familia de modelos compactos de generación de imágenes mediante difusión, diseñados para funcionar en dispositivos locales como portátiles y teléfonos. El modelo se ofrece en dos variantes: una binaria de 1 bit (1,125 bits efectivos por peso) y otra ternaria de 1,71 bits efectivos por peso. Ambas reducen drásticamente el tamaño del transformador de difusión respecto al modelo original FLUX.2 Klein 4B, alcanzando una reducción de hasta 8,3 veces en el caso binario y 6,4 veces en el ternario. En pruebas sobre iPhone 17 Pro Max, el modelo binario genera una imagen de 512×512 en 9,4 segundos, y en Mac M4 Pro alcanza una velocidad hasta 5,6 veces superior al pipeline completo en precisión completa. Las evaluaciones en GenEval, HPSv3 y DPG-Bench muestran que la variante ternaria retiene el 95 % de la precisión del modelo original, mientras que la binaria retiene el 88 %. Los pesos y el código se publican bajo licencia Apache 2.0, junto con la aplicación iOS Bonsai Studio. La compañía, surgida de investigadores de Caltech y apoyada por Khosla Ventures, Cerberus y Google, busca democratizar la generación de imágenes en el dispositivo, eliminando la latencia y los costes de las APIs en la nube para flujos iterativos.