Sana-WM es un modelo de mundo de código abierto con 2.600 millones de parámetros, diseñado específicamente para generar videos de alta fidelidad con resolución 720p y duración de hasta un minuto a partir de una única imagen y una trayectoria de cámara. Este sistema representa un avance significativo en el campo de los modelos de mundo (world models), que son herramientas de inteligencia artificial capaces de simular entornos virtuales coherentes donde agentes autónomos pueden planificar y ejecutar acciones.
La arquitectura de Sana-WM se sustenta en cuatro diseños fundamentales que garantizan su eficiencia y rendimiento. Primero, la atención lineal híbrida combina el Gated DeltaNet por cuadro con capas de atención softmax para modelar contextos largos de manera eficiente en memoria. Segundo, el control de cámara de doble rama permite un seguimiento preciso de trayectorias de 6 grados de libertad (6-DoF), utilizando una rama gruesa para pose global y otra fina alineada píxel-wise para geometría. Tercero, el pipeline de generación en dos etapas aplica un refinador de video largo a las salidas de la primera etapa, mejorando la calidad textual, el movimiento y la consistencia en ventanas tardías. Cuarto, el pipeline de anotación robusto extrae poses métricas precisas de videos públicos para generar etiquetas de acción de alta calidad.
En términos de eficiencia computacional, Sana-WM entrena únicamente con aproximadamente 213.000 clips de video públicos con supervisión de pose métrica, completando el entrenamiento en 15 días utilizando 64 GPUs H100 de NVIDIA. Durante la inferencia, puede generar un video de 60 segundos en una sola GPU H100, y su versión destilada puede ejecutarse en una RTX 5090 con cuantización NVFP4, produciendo un clip de 720p en apenas 34 segundos. Esto representa una mejora de 36 veces en rendimiento respecto a alternativas de código abierto previas.
Los casos de uso de Sana-WM son amplios: simulación de entornos para robótica y vehículos autónomos, generación de datos sintéticos para entrenamiento de modelos de IA, prototipado rápido de escenarios virtuales, y aplicaciones en videojuegos y realidad virtual donde se requiere generación de contenido dinámico. Sin embargo, existen consideraciones importantes: aunque logra calidad visual comparable a modelos industriales más grandes, su capacidad de generar acciones complejas y взаимодействуящие masih tiene márgenes de mejora, y la generación en tiempo real para aplicaciones interactivas sigue siendo un desafío computacional.
