10 Mar 2026 · Original en inglés · Artículo

LoGeR: Nueva técnica reconstruye 3D de videos largos

Fuentes: LoGeR: Long-Context Geometric Reconstructionwith Hybrid Memory

LoGeR (Long-Context Geometric Reconstruction with Hybrid Memory) es un nuevo enfoque para la reconstrucción 3D de videos de larga duración, un problema que hasta ahora ha sido extremadamente desafiante debido a limitaciones tanto de cálculo como de datos. Tradicionalmente, la reconstrucción 3D implica estimar la geometría del entorno a partir de una secuencia de imágenes, lo que requiere un seguimiento preciso de la posición y orientación de la cámara a lo largo del tiempo. La dificultad radica en que, a medida que la secuencia de video se alarga, se acumulan errores (drift) que distorsionan la reconstrucción final.

El principal obstáculo para la reconstrucción de videos largos es la complejidad computacional. Los modelos que utilizan atención bidireccional (como VGGT o π3) son excelentes para el razonamiento local, pero su costo computacional crece cuadráticamente con la longitud del video, haciéndolos inviables para secuencias largas. Alternativas con memoria lineal (como CUT3R o TTT3R) reducen este costo, pero a menudo sacrifican la precisión del alineamiento geométrico local, comprimiendo la información de manera que introduce errores.

LoGeR supera estas limitaciones mediante una arquitectura de memoria híbrida. En lugar de procesar todo el video a la vez, LoGeR lo divide en fragmentos (chunks). Para mantener la coherencia entre estos fragmentos, utiliza dos tipos de memoria: una memoria local (Sliding Window Attention - SWA) que asegura un alineamiento preciso entre los límites de los fragmentos, y una memoria global (Test-Time Training - TTT) que actualiza continuamente un estado comprimido para evitar la deriva a gran escala. Esta combinación permite una escalabilidad lineal con respecto a la longitud del video, manteniendo al mismo tiempo una alta fidelidad geométrica local y una consistencia global.

En términos técnicos, SWA se enfoca en el alineamiento preciso de los bordes de los fragmentos, mientras que TTT se encarga de mantener la consistencia a largo plazo. El proceso se divide en cuatro pasos por fragmento: extracción de características por fotograma, alineamiento local con SWA, actualización global con TTT y razonamiento geométrico denso dentro del fragmento. Esto permite a LoGeR procesar videos de hasta 19,000 fotogramas sin necesidad de optimización posterior, logrando resultados significativamente mejores que los métodos anteriores, tanto en videos largos como en secuencias más cortas, y superando incluso a los modelos más avanzados en términos de precisión y velocidad.

LoGeR es útil para aplicaciones que requieren reconstrucciones 3D precisas de entornos a partir de videos largos, como robótica, vehículos autónomos, mapeo y modelado 3D de grandes espacios.

Etiquetas

reconstrucción 3d visión artificial aprendizaje profundo procesamiento de video loger memoria híbrida swa ttt geometría robótica

Entidades mencionadas

LoGeR software

SWA software

TTT software

CUT3R software

FastVGGT software

VGGT software

π3 software

TTT3R software

KITTI location

Zhang person

Zhang Zuolin, conocido como el «Viejo Mariscal», fue un caudillo militar chino de la era de los señores de la guerra, a comienzos de la república. Se le consideraba el principal caudillo militar al se

Ver en Wikipedia

DreamBooth software

Cole organization

Los coleópteros, comúnmente conocidos como escarabajos, son un orden de insectos de entre 375 000 y 400 000 especies descritas; tiene tantas especies como las plantas vasculares o los hongos y 66 vece

Ver en Wikipedia

Darrell person

Darrell Lance Abbott, más conocido por su nombre artístico Dimebag Darrell, fue un músico estadounidense. Ha sido guitarrista de las bandas de heavy metal Pantera y Damageplan, ambas cofundadas junto

Ver en Wikipedia

SD+DINO person

Augusto Nicolás Calderón Sandino, más conocido como Augusto C. Sandino, fue un guerrillero, patriota y revolucionario nicaragüense.

Ver en Wikipedia

Herrmann person

Edward Herrmann fue un actor, director, escritor y comediante estadounidense, más conocido por su interpretación de Richard Gilmore en Gilmore Girls, un narrador para programas de carácter histórico e

Ver en Wikipedia

Hur organization

Los Hurs son una comunidad musulmana sufí originaria de la provincia del Sind en Pakistan. Su líder espiritual es denominado « Pir Pagara ».

Ver en Wikipedia

Sun organization

Los suníes o sunitas ʾAhlu-s-Sunnati wa-l-Jamāʿah son la facción musulmana mayoritaria en la comunidad islámica mundial, seguido por el 87-90% de todos los musulmanes del mundo. Se caracteriza por un

Ver en Wikipedia

Yang person

El yin y el yang son dos conceptos del taoísmo, que son usados para representar o referirse a las dos fuerzas fundamentales opuestas y complementarias, pero interconectadas, que se encuentran en todas

Ver en Wikipedia