07 Jun 2026 · Original en inglés · Artículo

Modelo de difusión sin entrenamiento para generar imágenes a partir de una sola referencia

Fuentes: Efficient and Training-Free Single-Image Diffusion Models

Imagen generada por IA con el prompt: Abstract digital mosaic of image patches at multiple scales blending into a coherent landscape, soft gradient background, editorial generative art style, no text, no people — Imagen generada con IA

Un equipo de investigación presenta un método para generar imágenes cuya estructura interna coincide con la de una imagen de referencia, sin necesidad de entrenar una red neuronal. La técnica, descrita en un artículo depositado en arXiv, se basa en construir un conjunto de datos a partir de los parches de la imagen original a múltiples escalas y en calcular directamente la función de puntuación para cada parche ruidoso mediante un denoiser de forma cerrada.

Los modelos de difusión convencionales requieren procesos de entrenamiento costosos, incluso cuando se adaptan a una sola imagen. Los métodos recientes de difusión de imagen única pueden tardar horas en optimizar los pesos del modelo para capturar la distribución interna de esa imagen. El nuevo enfoque sustituye este entrenamiento por una representación basada en parches: dado que el conjunto de parches es finito y su dimensionalidad es reducida, es posible derivar analíticamente la función de puntuación para un parche ruidoso, eliminando la optimización de la red neuronal.

El denoiser de parches se integra después en un modelo de difusión de imagen sin entrenamiento, lo que conecta el método con técnicas clásicas de restauración de imágenes basadas en parches. Los autores muestran que su propuesta alcanza una calidad y diversidad de generación comparables o superiores a las de los modelos de difusión entrenados sobre una sola imagen, pese a no requerir fase de entrenamiento.

La técnica admite varias aplicaciones prácticas: generación incondicional de imágenes a partir de una referencia; estilización guiada por texto, en la que se preserva la estructura interna de la imagen original mientras se ajusta su apariencia; simetrización de imágenes, que completa regiones para imponer simetrías; y reescalado (retargeting), que ajusta la proporción de la imagen manteniendo su coherencia estructural. El método es, además, compatible con la difusión en espacio latente, lo que permite acelerar aún más el proceso.

Gracias a la combinación del denoiser analítico y de varias técnicas adicionales de aceleración, los autores logran generar imágenes de un megapíxel en aproximadamente un segundo y de un gigapíxel en pocos minutos sobre hardware estándar. Estos tiempos hacen viable el uso del método en flujos de trabajo interactivos y en aplicaciones creativas que demandan iteración rápida sobre una única imagen de referencia. El trabajo se sitúa en la intersección entre los modelos generativos profundos y la restauración clásica de imágenes, y abre la puerta a técnicas de generación y edición de imágenes más eficientes desde el punto de vista computacional.

Temas

ciencia y salud

Etiquetas

single-image diffusion training-free image generation patch-based denoising diffusion models score function computer vision image restoration arxiv

Entidades mencionadas

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Enlaces

What is Connected Papers? www.connectedpapers.com

What is Litmaps? www.litmaps.co

What are Smart Citations? www.scite.ai

What is CatalyzeX? www.catalyzex.com

What is Huggingface? huggingface.co