REST3D es un marco de trabajo de investigación que reconstruye escenas tridimensionales físicamente estables a partir de una única imagen RGB. El proyecto, presentado como preprint en arXiv por Xiaoxuan Ma, Jiashun Wang, Nicolás Ugrinovic, Yehonathan Litman y Kris Kitani, aborda una limitación habitual de los métodos de reconstrucción a partir de una sola imagen: producen modelos geométricamente plausibles pero físicamente inconsistentes, con objetos que flotan o se interpenetran, lo que provoca comportamientos inestables al introducirlos en simuladores de física. Los métodos generativos condicionados por imagen mejoran la plausibilidad física, pero suelen apoyarse en priors de escena fuertes y generan distribuciones plausibles que no se corresponden con la imagen de entrada.
REST3D combina dos etapas. Primero, un módulo de comprensión física de la escena, descrito como agéntico, construye una representación en forma de árbol que captura el estado físico de cada objeto y las relaciones entre ellos desde la perspectiva del soporte gravitatorio. Esta estructura sirve como prior estructural para la reconstrucción. A continuación, el sistema inicializa la escena con modelos de conversión imagen-a-3D y aplica una alineación guiada por el árbol de escena, seguida de una optimización con restricciones físicas, con el objetivo de resolver las violaciones de la física sin perder coherencia visual con la imagen original.
Los autores evalúan el método en conjuntos de datos sintéticos y reales y reportan una reducción significativa de los errores físicos y una mejora de la estabilidad de la simulación, manteniendo la calidad de reconstrucción. Las pruebas se realizan en el simulador Isaac Gym, donde las escenas producidas convergen rápidamente a estados estables, mientras que los métodos previos tienden a separaciones explosivas de los objetos al aplicar gravedad. Como demostración práctica, el equipo implementa un sistema de realidad virtual con Meta Quest Pro que reconstruye una escena inmersiva y físicamente coherente a partir de una sola imagen y permite la interacción mediante manos. Entre las aplicaciones citadas figuran la interacción inmersiva y la creación de contenidos digitales a partir de capturas casuales.
