Lift4D es un marco de optimización en tiempo de prueba que reconstruye objetos dinámicos completos a partir de un único vídeo monocular, abordando un problema clásico de la visión por computador: fusionar las pistas visuales del vídeo con priors aprendidos sobre geometría y apariencia. Los métodos anteriores se dividían en dos familias. La primera aprende a predecir directamente representaciones 3D por fotograma, pero está limitada por la escasez de datos de entrenamiento 4D. La segunda inicializa una representación 3D y luego la deforma y refina con la señal del vídeo, aunque solo aprovecha los priors en la fase inicial y depende después únicamente de la supervisión del vídeo. Ninguna de las dos maneja bien escenas del mundo real con deformaciones grandes y oclusiones severas.
Lift4D combina lo mejor de ambos enfoques. Primero adapta un modelo existente de reconstrucción 3D a partir de una sola vista para producir predicciones por fotograma temporalmente consistentes mediante condicionamiento latente causal, lo que proporciona una inicialización coherente para una representación de 3D Gaussian Splatting deformable. A continuación esculpe esa representación para que coincida con el vídeo de entrada mediante una optimización consciente de la oclusión, que recupera con fidelidad los detalles visibles de la superficie y completa las regiones no observadas usando un prior de difusión condicionado por la vista.
Los autores demuestran que Lift4D supera a métodos previos de reconstrucción 4D tanto en secuencias sintéticas como en grabaciones del mundo real, entregando geometría completa y temporalmente coherente, apariencia más nítida y movimiento más preciso incluso bajo oclusiones intensas. El trabajo, publicado en arXiv, está firmado por Yehonathan Litman, Xiaoxuan Ma, Manan Shah, Nicolás Ugrinovic, Kris Kitani, Fernando De la Torre y Shubham Tulsiani, e incluye un visor interactivo para explorar las reconstrucciones resultantes.
