ByteDance presenta Lance, el modelo multimodal de IA más eficiente con solo 3B parámetros

Fuentes: GitHub - bytedance/Lance: A 3B-active-parameter native unified multimodal model for image and video understanding, generation, and editing.
ByteDance presenta Lance, el modelo multimodal de IA más eficiente con solo 3B parámetros
Imagen generada con IA

Lance es un modelo de inteligencia artificial desarrollado por ByteDance que alcanza un hito importante en el campo de la IA multimodal: lograr capacidades de generación, edición y entendimiento de imágenes y videos dentro de un únicoframework unificado, utilizando únicamente 3 mil millones de parámetros activos. Esta eficiencia es notable considerando que modelos comparables suelen requerir entre 7 y 20 mil millones de parámetros para lograr resultados similares. El modelo fue entrenado completamente desde cero utilizando una infraestructura de 128 GPUs NVIDIA A100, employando una receta multi-tarea por etapas que le permite aprender de manera integrada las diferentes capacidades. Lance soporta seis tareas principales: generación de imagen a partir de texto (t2i), generación de video a partir de texto (t2v), edición de imágenes, edición de videos, entendimiento de imágenes (x2t_image) y entendimiento de videos (x2t_video). En términos de rendimiento, Lance obtiene resultados competitivos en benchmarks especializados como DPG-Bench para generación de imágenes con preservación de entidades, GenEval para evaluación de generación, y GEdit-Bench para edición de imágenes, superando o igualando a modelos significativamente más grandes como Qwen-Image (20B parámetros) o FLUX.1-dev (12B parámetros). Para utilizar Lance se requiere Python 3.10+, CUDA 12.4 y una GPU con al menos 40GB de memoria VRAM. El proyecto proporciona una interfaz de línea de comandos unificada que facilita ejecutar todas las tareas disponibles, así como una interfaz Gradio para interacción visual. Las limitaciones principales incluyen el requerimiento de hardware especializado de alto costo y que el modelo se encuentra disponible principalmente a través de Hugging Face.