16 May 2026 · Original en inglés · Artículo

Presentan Sana-WM: modelo de código abierto que genera videos de alta fidelidad desde una imagen

Fuentes: SANA-WM: Efficient Minute-Scale World Modelingwith Hybrid Linear Diffusion Transformer

Sana-WM es un modelo de mundo de código abierto con 2.600 millones de parámetros, diseñado específicamente para generar videos de alta fidelidad con resolución 720p y duración de hasta un minuto a partir de una única imagen y una trayectoria de cámara. Este sistema representa un avance significativo en el campo de los modelos de mundo (world models), que son herramientas de inteligencia artificial capaces de simular entornos virtuales coherentes donde agentes autónomos pueden planificar y ejecutar acciones.

La arquitectura de Sana-WM se sustenta en cuatro diseños fundamentales que garantizan su eficiencia y rendimiento. Primero, la atención lineal híbrida combina el Gated DeltaNet por cuadro con capas de atención softmax para modelar contextos largos de manera eficiente en memoria. Segundo, el control de cámara de doble rama permite un seguimiento preciso de trayectorias de 6 grados de libertad (6-DoF), utilizando una rama gruesa para pose global y otra fina alineada píxel-wise para geometría. Tercero, el pipeline de generación en dos etapas aplica un refinador de video largo a las salidas de la primera etapa, mejorando la calidad textual, el movimiento y la consistencia en ventanas tardías. Cuarto, el pipeline de anotación robusto extrae poses métricas precisas de videos públicos para generar etiquetas de acción de alta calidad.

En términos de eficiencia computacional, Sana-WM entrena únicamente con aproximadamente 213.000 clips de video públicos con supervisión de pose métrica, completando el entrenamiento en 15 días utilizando 64 GPUs H100 de NVIDIA. Durante la inferencia, puede generar un video de 60 segundos en una sola GPU H100, y su versión destilada puede ejecutarse en una RTX 5090 con cuantización NVFP4, produciendo un clip de 720p en apenas 34 segundos. Esto representa una mejora de 36 veces en rendimiento respecto a alternativas de código abierto previas.

Los casos de uso de Sana-WM son amplios: simulación de entornos para robótica y vehículos autónomos, generación de datos sintéticos para entrenamiento de modelos de IA, prototipado rápido de escenarios virtuales, y aplicaciones en videojuegos y realidad virtual donde se requiere generación de contenido dinámico. Sin embargo, existen consideraciones importantes: aunque logra calidad visual comparable a modelos industriales más grandes, su capacidad de generar acciones complejas y взаимодействуящие masih tiene márgenes de mejora, y la generación en tiempo real para aplicaciones interactivas sigue siendo un desafío computacional.

Etiquetas

modelos de mundo inteligencia artificial generativa generación de video diffusion transformers gpu nvidia h100 aprendizaje profundo simulación 3d robótica autónoma código abierto renderizado en tiempo real

Entidades mencionadas

NVFP4 software

SANA-WM software

Gated DeltaNet software

RTX 5090 hardware

LingBot-World organization

LingBot-World is an open-source AI world model that generates real-time interactive 3D environments. Developed by Lingbo Technology (Ant Group), LingBot-World rivals Google Genie 3 in quality—now avai

HY-WorldPlay organization

HY-World 1.5 bridges this gap with WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between

H100 hardware