23 Jun 2026 · Original en inglés · Artículo

Lift4D: reconstruir objetos dinámicos en 4D a partir de vídeo monocular

Fuentes: Lift4D: Harmonizing Single-View 3D Estimation for 4D Reconstruction In-the-Wild

Lift4D es un marco de optimización en tiempo de prueba que reconstruye objetos dinámicos completos a partir de un único vídeo monocular, abordando un problema clásico de la visión por computador: fusionar las pistas visuales del vídeo con priors aprendidos sobre geometría y apariencia. Los métodos anteriores se dividían en dos familias. La primera aprende a predecir directamente representaciones 3D por fotograma, pero está limitada por la escasez de datos de entrenamiento 4D. La segunda inicializa una representación 3D y luego la deforma y refina con la señal del vídeo, aunque solo aprovecha los priors en la fase inicial y depende después únicamente de la supervisión del vídeo. Ninguna de las dos maneja bien escenas del mundo real con deformaciones grandes y oclusiones severas.

Lift4D combina lo mejor de ambos enfoques. Primero adapta un modelo existente de reconstrucción 3D a partir de una sola vista para producir predicciones por fotograma temporalmente consistentes mediante condicionamiento latente causal, lo que proporciona una inicialización coherente para una representación de 3D Gaussian Splatting deformable. A continuación esculpe esa representación para que coincida con el vídeo de entrada mediante una optimización consciente de la oclusión, que recupera con fidelidad los detalles visibles de la superficie y completa las regiones no observadas usando un prior de difusión condicionado por la vista.

Los autores demuestran que Lift4D supera a métodos previos de reconstrucción 4D tanto en secuencias sintéticas como en grabaciones del mundo real, entregando geometría completa y temporalmente coherente, apariencia más nítida y movimiento más preciso incluso bajo oclusiones intensas. El trabajo, publicado en arXiv, está firmado por Yehonathan Litman, Xiaoxuan Ma, Manan Shah, Nicolás Ugrinovic, Kris Kitani, Fernando De la Torre y Shubham Tulsiani, e incluye un visor interactivo para explorar las reconstrucciones resultantes.

Temas

ciencia y salud

Etiquetas

lift4d 4d reconstruction 3d gaussian splatting monocular video computer vision diffusion prior arxiv neural rendering

Entidades mencionadas

DiT software

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Lift4D software

3D Gaussian Splatting protocol_standard

Yehonathan Litman person

Skip to content · Yehonathan Litman · PhD Student · Office: 224 Elliot Dunlap Smith Hall · Advisors: Fernando De la Torre Frade and Shubham Tulsiani · Lab: Human Sensing Lab · Publications · Displayin

Xiaoxuan Ma person

Zhou Xiaoxuan, más conocida por su seudónimo Xianzi (Chinese), es una guionista china y una destacada defensora del movimiento Me Too chino.

Ver en Wikipedia

Nicolás Ugrinovic person

I am a PhD student under the supervision of Francesc Moreno-Noguer and Albert Sanfeliu working on applied Deep Learning for Computer Vision for 3D human reconstruction and pose/motion estimation and g

Kris Kitani person

Oslo (), llamada Christiania y Kristiania —Cristianía en español—, es la capital y la ciudad más poblada de Noruega, además de ser su centro político, económico y cultural. Políticamente constituye un

Ver en Wikipedia

Shubham Tulsiani person

Manan Shah person

Sonika Manandhar es una ingeniera informática y emprendedora social nepalesa. Es cofundadora de una empresa de tecnología financiera llamada Aeloi Technologies, una organización que ayuda a financiar

Ver en Wikipedia

Fernando De la Torre person

Fernando de la Torre Farfán fue un sacerdote, cronista, poeta, escritor y traductor español. Sus obras más conocidas son Fiestas de la S. Iglesia Metropolitana y Patriarcal de Sevilla. Al nuevo culto

Ver en Wikipedia