08 Jun 2026 · Original en inglés · Artículo

Explorando los embeddings visuales de DINOv3: cómo visualizar e interpretar el espacio latente de un modelo de visión

Fuentes: Playing with Vision Embeddings: Visualizing and Interpreting DINOv3's Latent Space

Imagen generada por IA con el prompt: Abstract digital art: colorful gradient landscapes and natural scenes (mountains, trees, bridges) emerging from a glowing node, evoking 384-dimensional vector space, soft neural network aesthetic, no text — Imagen generada con IA

DINOv3, un modelo de visión por computadora publicado por Meta en 2025, comprime cualquier imagen en un vector de 384 números que codifica su contenido semántico. Un nuevo experimento explica cómo visualizar y desglosar ese espacio latente para entender qué información captura realmente la red.

El artículo parte de la premisa de que los embeddings —las representaciones numéricas internas de una red neuronal— son opacos a simple vista, pero pueden estudiarse traduciéndolos de vuelta a imágenes. Para ello, los autores aprovechan que DINOv3 es completamente diferenciable: ajustan los píxeles de una imagen mediante descenso por gradiente para maximizar la similitud coseno con un embedding objetivo. Combinan esa técnica con un 'transformer' no entrenado, una variante inspirada en Deep Image Prior, y una pérdida de variación total que mejora la calidad visual. Además, replican la estrategia de recortes y aumentaciones usada durante el entrenamiento, lo que evita que el optimizador 'haga trampa' con ruido de alta frecuencia y alinea el proceso con la propia definición de similitud del modelo.

El resultado son imágenes generadas que capturan el 'espíritu' de la original —un paisaje alpino, por ejemplo, devuelve montañas, nieve y lago— aunque con mayor saturación, más contraste y, en ocasiones, objetos duplicados o mal ubicados. Estas firmas son artefactos del proceso y conviene tenerlas presentes al interpretar las salidas.

El siguiente paso es descomponer los 384 números en conceptos interpretables. Aquí entra la noción de superposición: las redes neuronales almacenan muchas más características que dimensiones tiene su espacio, orientando cada una en una dirección casi ortogonal. Para ilustrarlo, los autores entrenan una red mínima que condensa 10 clases de dígitos MNIST en solo 2 dimensiones, mostrando cómo cada clase ocupa una dirección distinta. En 384 dimensiones caben miles.

Para aislar esas características, entrenan un autoencoder disperso (SAE) que produce unas 12.000 direcciones interpretables en el espacio de DINOv3. Al generar imágenes que maximizan la similitud con cada dirección, emergen conceptos visuales concretos como árboles, vallas o puentes; como verificación, se comparan con las imágenes de ImageNet que más activan cada rasgo. Por último, aplican el SAE para descomponer embeddings reales: una foto de un sendero en un bosque de secuoyas se desglosa en árboles, vegetación, vallas y caminos, y una del Golden Gate Bridge activa con fuerza una característica dedicada específicamente al puente. El trabajo demuestra que es posible traducir el lenguaje interno de un modelo de visión a conceptos visuales comprensibles para una persona, aunque el método conserva las limitaciones propias de la optimización píxel a píxel.

Etiquetas

computer vision deep learning embeddings dinov3 sparse autoencoders mechanistic interpretability vision transformers feature visualization meta ai neural networks

Entidades mencionadas

DINOv3 software

Meta organization

Metallica es una banda estadounidense de heavy metal fundada en 1981 en Los Ángeles, aunque ha estado radicada en San Francisco durante la mayor parte de su carrera. Está integrada por el vocalista y

Ver en Wikipedia

Siméoni et al., 2025 person

Los resultados del Simce 2025 confirman que el sistema escolar chileno enfrenta el desafío crítico de mejorar sostenidamente los aprendizajes. Es justo reconocer la resiliencia del sistema: tras uno d

Mordvintsev et al., 2015 person

@inproceedings{Mordvintsev2015InceptionismGD, title={Inceptionism: Going Deeper into Neural Networks}, author={A. Mordvintsev and Christopher Olah and Mike Tyka}, year={2015}, url={https://api.semanti

Olah et al., 2017 person

BY G. K. SURYA PRAKASH AND YANNIS C. YORTSOS GEORGE ANDREW OLAH was one of the preeminent scientists of the second half of the 20th centu

Ulyanov et al., 2017 person

‪PhD, Machine learning, Computer vision‬ - ‪‪Cited by 14,813‬‬ - ‪Machine learning‬ - ‪Computer vision‬

Elhage et al., 2022 person

We gratefully acknowledge support from the Simons Foundation, member institutions, and all contributors. Donate ... Authors:Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma,

Fry (2024) person

Tiene un amuleto, un trébol de 7 hojas, que Yancy quiere conseguir, por lo que Fry lo esconde en la caja fuerte, con los vinilos. Este amuleto le permite realizar impresionantes pasos de baile y servi

DeepDream software

MNIST software

ImageNet software

Golden Gate Bridge location

Deep Image Prior creative_work

arXiv:2508.10104 creative_work