DINOv3, un modelo de visión por computadora publicado por Meta en 2025, comprime cualquier imagen en un vector de 384 números que codifica su contenido semántico. Un nuevo experimento explica cómo visualizar y desglosar ese espacio latente para entender qué información captura realmente la red.
El artículo parte de la premisa de que los embeddings —las representaciones numéricas internas de una red neuronal— son opacos a simple vista, pero pueden estudiarse traduciéndolos de vuelta a imágenes. Para ello, los autores aprovechan que DINOv3 es completamente diferenciable: ajustan los píxeles de una imagen mediante descenso por gradiente para maximizar la similitud coseno con un embedding objetivo. Combinan esa técnica con un 'transformer' no entrenado, una variante inspirada en Deep Image Prior, y una pérdida de variación total que mejora la calidad visual. Además, replican la estrategia de recortes y aumentaciones usada durante el entrenamiento, lo que evita que el optimizador 'haga trampa' con ruido de alta frecuencia y alinea el proceso con la propia definición de similitud del modelo.
El resultado son imágenes generadas que capturan el 'espíritu' de la original —un paisaje alpino, por ejemplo, devuelve montañas, nieve y lago— aunque con mayor saturación, más contraste y, en ocasiones, objetos duplicados o mal ubicados. Estas firmas son artefactos del proceso y conviene tenerlas presentes al interpretar las salidas.
El siguiente paso es descomponer los 384 números en conceptos interpretables. Aquí entra la noción de superposición: las redes neuronales almacenan muchas más características que dimensiones tiene su espacio, orientando cada una en una dirección casi ortogonal. Para ilustrarlo, los autores entrenan una red mínima que condensa 10 clases de dígitos MNIST en solo 2 dimensiones, mostrando cómo cada clase ocupa una dirección distinta. En 384 dimensiones caben miles.
Para aislar esas características, entrenan un autoencoder disperso (SAE) que produce unas 12.000 direcciones interpretables en el espacio de DINOv3. Al generar imágenes que maximizan la similitud con cada dirección, emergen conceptos visuales concretos como árboles, vallas o puentes; como verificación, se comparan con las imágenes de ImageNet que más activan cada rasgo. Por último, aplican el SAE para descomponer embeddings reales: una foto de un sendero en un bosque de secuoyas se desglosa en árboles, vegetación, vallas y caminos, y una del Golden Gate Bridge activa con fuerza una característica dedicada específicamente al puente. El trabajo demuestra que es posible traducir el lenguaje interno de un modelo de visión a conceptos visuales comprensibles para una persona, aunque el método conserva las limitaciones propias de la optimización píxel a píxel.
