Linum libera código de VAE: avance para videos y IA

Fuentes: Linum Open-Sources Image-Video VAE, Reveals Surprising Findings

La empresa Linum ha abierto el código de su Variational Autoencoder (VAE) para imágenes y videos, junto con los registros de sus experimentos. El objetivo era reducir el tamaño de los archivos de video para facilitar su procesamiento con modelos de difusión basados en transformadores, que de otro modo serían computacionalmente inviables debido a la escala cuadrática de la atención. Durante el desarrollo, que se extendió de julio a noviembre de 2024, Linum descubrió una sorpresa: una mejor compresión no siempre se correlaciona con la estabilidad del VAE ni con la calidad de la generación posterior. Aunque finalmente utilizaron un VAE preexistente de Wan 2.1 para su modelo de texto a video, la empresa considera valioso el aprendizaje obtenido en el proceso de construcción. El principal desafío encontrado fue la necesidad de equilibrar la compresión con la calidad de la reconstrucción, especialmente al combinar el entrenamiento con imágenes y videos. Un error crítico se identificó en la función de pérdida, donde la diferencia de tamaño entre imágenes y videos estaba sesgando el entrenamiento. Linum planea continuar investigando y mejorando sus VAEs en 2026, buscando una compresión adaptativa que considere la complejidad del contenido en lugar de solo la resolución.