DiffusionBench: un banco de pruebas unificado para modelos de difusión Transformer

Fuentes: DiffusionBench: A Unified Benchmark for Diffusion Transformers

DiffusionBench es un marco de código abierto diseñado para entrenar y evaluar modelos generativos basados en Diffusion Transformers de forma unificada. El proyecto surge con la premisa de que la evaluación exclusiva sobre ImageNet resulta insuficiente para medir el rendimiento real de estos modelos, por lo que propone un benchmark holístico que abarca múltiples ejes de generación. La plataforma ofrece una interfaz única para tareas como ImageNet condicional por clase y texto-a-imagen (T2I), junto con un flujo de trabajo en dos etapas: la primera entrena un tokenizador RAE y la segunda entrena el modelo de difusión sobre espacios VAE, RAE, REG o píxeles.

El repositorio soporta arquitecturas como LightningDiT, JiT y DDT, así como distintos métodos de predicción (x-prediction, v-prediction), esquemas de transporte (Rectified-Flow, MeanFlow, Improved-MeanFlow, Pixel-MeanFlow, Drifting) y funciones de pérdida (Flow Matching, REPA, iREPA). Se proporcionan más de 30 codificadores de representación —DINOv2, SigLIP2, WebSSL, LangPE— y más de 10 VAE, entre ellos FLUX.1, FLUX.2, SD3.5, VA-VAE y E2E-VAE. Las configuraciones de muestreo incorporan los checkpoints entrenados y guías de evaluación para ejecutar rFID, PSNR, SSIM, LPIPS, FID, IS, GenEval, DPGBench, GenAIBench y VQAScore. Los autores piden contribuciones para ampliar ejes, métricas y reproducciones fieles de métodos publicados, e integran soporte para agentes de codificación y planean integrar AutoResearch.