Un equipo de investigación presenta un método para generar imágenes cuya estructura interna coincide con la de una imagen de referencia, sin necesidad de entrenar una red neuronal. La técnica, descrita en un artículo depositado en arXiv, se basa en construir un conjunto de datos a partir de los parches de la imagen original a múltiples escalas y en calcular directamente la función de puntuación para cada parche ruidoso mediante un denoiser de forma cerrada.
Los modelos de difusión convencionales requieren procesos de entrenamiento costosos, incluso cuando se adaptan a una sola imagen. Los métodos recientes de difusión de imagen única pueden tardar horas en optimizar los pesos del modelo para capturar la distribución interna de esa imagen. El nuevo enfoque sustituye este entrenamiento por una representación basada en parches: dado que el conjunto de parches es finito y su dimensionalidad es reducida, es posible derivar analíticamente la función de puntuación para un parche ruidoso, eliminando la optimización de la red neuronal.
El denoiser de parches se integra después en un modelo de difusión de imagen sin entrenamiento, lo que conecta el método con técnicas clásicas de restauración de imágenes basadas en parches. Los autores muestran que su propuesta alcanza una calidad y diversidad de generación comparables o superiores a las de los modelos de difusión entrenados sobre una sola imagen, pese a no requerir fase de entrenamiento.
La técnica admite varias aplicaciones prácticas: generación incondicional de imágenes a partir de una referencia; estilización guiada por texto, en la que se preserva la estructura interna de la imagen original mientras se ajusta su apariencia; simetrización de imágenes, que completa regiones para imponer simetrías; y reescalado (retargeting), que ajusta la proporción de la imagen manteniendo su coherencia estructural. El método es, además, compatible con la difusión en espacio latente, lo que permite acelerar aún más el proceso.
Gracias a la combinación del denoiser analítico y de varias técnicas adicionales de aceleración, los autores logran generar imágenes de un megapíxel en aproximadamente un segundo y de un gigapíxel en pocos minutos sobre hardware estándar. Estos tiempos hacen viable el uso del método en flujos de trabajo interactivos y en aplicaciones creativas que demandan iteración rápida sobre una única imagen de referencia. El trabajo se sitúa en la intersección entre los modelos generativos profundos y la restauración clásica de imágenes, y abre la puerta a técnicas de generación y edición de imágenes más eficientes desde el punto de vista computacional.
