24 Apr 2026 · Original en inglés · Artículo

TIPSv2: Modelo mejora la unión de imagen y texto

Fuentes: TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

TIPSv2 representa una nueva generación de modelos de codificación de imágenes y texto, diseñados para mejorar el rendimiento en una amplia gama de tareas multimodales y de visión artificial. El núcleo de la innovación reside en una observación sorprendente: la destilación (un proceso de aprendizaje donde un modelo más pequeño imita a uno más grande) permite una alineación superior entre los fragmentos de imagen (patches) y el texto asociado, superando incluso a los modelos 'maestros' mucho más grandes. Esto contrasta con la tendencia habitual donde los modelos más grandes superan a los más pequeños.

Para aprovechar este hallazgo, los investigadores introdujeron tres mejoras clave en el proceso de pre-entrenamiento: iBOT++, Head-only EMA y Multi-Granularity Captions. iBOT++ extiende la función de pérdida de auto-supervisión a todos los fragmentos de la imagen, no solo a los enmascarados, lo que mejora significativamente la alineación entre fragmentos y texto. Head-only EMA reduce el costo computacional al aplicar la técnica EMA (Exponential Moving Average) solo a la capa de proyección, conservando el rendimiento. Finalmente, Multi-Granularity Captions utiliza descripciones de texto más ricas, generadas por modelos como PaliGemma y Gemini, para una mejor supervisión del texto.

Las ventajas de TIPSv2 son notables. Produce mapas de características más suaves y con límites de objetos más definidos en comparación con modelos anteriores. En pruebas, TIPSv2 supera o iguala a modelos de vanguardia en 9 tareas y 20 conjuntos de datos, destacando especialmente en la segmentación de imágenes sin ejemplos (zero-shot segmentation). Por ejemplo, en la segmentación zero-shot ADE150, TIPSv2 logra una mejora significativa de 14.1 mIoU (Mean Intersection over Union).

Un aspecto importante es que TIPSv2, incluso en versiones más pequeñas (ViT-L), puede superar a modelos mucho más grandes (ViT-g y DINOv3) en ciertas tareas, demostrando la eficiencia de su enfoque de destilación y las mejoras introducidas. La disponibilidad de TIPSv2 en Hugging Face facilita su acceso y experimentación para la comunidad de investigadores y desarrolladores. En resumen, TIPSv2 representa un avance significativo en la visión-lenguaje, ofreciendo un equilibrio entre rendimiento, eficiencia y facilidad de uso.

Etiquetas

vision-language models deep learning image processing computer vision pre-training distillation segmentation hugging face zero-shot learning tipsv2

Entidades mencionadas

TIPSv2 software

TIPS software

gdm-tips.github.io organization

Kevis-Kokitsi Maninis* Kaifeng Chen* Soham Ghosh*† Arjun Karpur* Koert Chen Ye Xia Bingyi Cao Daniel Salz Guangxing Han Jan Dlabal Dan Gnanapragasam Mojtaba Seyedhosseini Howard Zhou Andre Araujo (*eq

iBOT++ software

Head-only EMA software

Multi-Granularity Captions software

PaliGemma software

Gemini software

Gemini, conocido anteriormente como Google Bard, es un bot conversacional de inteligencia artificial multimodal y generativa desarrollado por Google basado en la familia Gemini Pro. Se desarrolló como

Ver en Wikipedia

DINOv3 software

ViT-g software

ViT-L software

ViT-7B software

HuggingFace organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

Google organization

Google LLC es una empresa de tecnología multinacional con sede en California, Estados Unidos, que se centra en inteligencia artificial, publicidad en línea, tecnología de motores de búsqueda, computac

Ver en Wikipedia

SigLIP2 software

PE-core G/14 software

D4RT person

Darth Maul, también conocido simplemente como Maul, es un personaje de la franquicia Star Wars. Apareció por primera vez en la película de 1999 Star Wars: Episodio I - La amenaza fantasma como un pode

Ver en Wikipedia

Connor Schenck person

Kevin Joseph Aloysius "Chuck" Connors fue un actor estadounidense, además de jugador profesional de baloncesto y béisbol, conocido principalmente por su papel protagonista en la serie western de la dé

Ver en Wikipedia

Gabriele Berton person

Gabriel Ebert es un actor de teatro y cantante estadounidense.

Ver en Wikipedia

Cao, Bingyi location

Caobangia es un género monotípico de helechos perteneciente a la familia Polypodiaceae. Su única especie: Caobangia squamata, es originaria de Vietnam en Cao Bang y China en Guangxi.

Ver en Wikipedia

Chen, Koert person

Roberto Leandro Chen Rodríguez es un futbolista panameño. Juega de defensa central en el Tauro FC de la Primera División de Panamá.

Ver en Wikipedia

Maninis, Kevis-Kokitsi organization

Kevis-Kokitsi Maninis · Research Scientist at Google DeepMind · Verified email at google.com - Homepage · Computer VisionMachine Learning · ArticlesCited byPublic accessCo-authors · PrivacyTermsHelp ·

Chen, Kaifeng person

Chun Kai Feng es un ciclista profesional taiwanés que desde 2023 corre para el equipo Utsunomiya Blitzen de categoría Continental.

Ver en Wikipedia

Karpur, Arjun person

Arjun Karpur · Head of ML @ Epsilon Health · Verified email at epsilonlabs.ai · Computer vision3D vision · ArticlesCited byPublic accessCo-authors · PrivacyTermsHelp ·

Xia, Ye organization

Los xianbei constituyeron una de las grandes confederaciones nómadas de la estepa, emplazando su núcleo de poder en torno a la región del Alto Amur, expandiendo sus hordas durante tres siglos hasta ll

Ver en Wikipedia

Dua, Sahil person

Dua Saleh es una celebridad del canto y la actuación de origen sudanés que reside en Mineápolis, Minnesota. Su primer EP, Nūr, fue lanzado en enero de 2019 por el sello discográfico Against Giants, y

Ver en Wikipedia

Dabral, Tanmaya person

Experience: Google DeepMind · Education: Carnegie Mellon University · Location: Mountain View · 322 connections on LinkedIn. View Tanmaya Shekhar Dabral’s profile on LinkedIn, a professional community

Han, Guangxing person

Guangxing Han · Other names韩光星 · Google DeepMind · Verified email at google.com - Homepage · Computer VisionDeep LearningMultimediaFew-Shot LearningLarge Language Model · ArticlesCited byPublic acces

Han, Bohyung person

Byung-Chul Han es un filósofo católico y ensayista surcoreano experto en estudios culturales y profesor de la Universidad de las Artes de Berlín. Escribe en alemán y está considerado como uno de los f

Ver en Wikipedia

Ainslie, Joshua person

Experience: Google · Education: Stanford University · Location: Mountain View · 491 connections on LinkedIn. View Joshua Ainslie’s profile on LinkedIn, a professional community of 1 billion members.

Bewley, Alex person

Alexis Simon Belle, fue un pintor francés, especializado en retratos de miembros de la corte.

Ver en Wikipedia

Jacob, Mithun person

Mithun Jacob · Staff Research Engineer Google DeepMind · Previously, I led mapping and localization at Everyday Robots, an X project. Before that, I worked at Bosch on mapping and localization for aut

Wagner, Rene person

Robert John Wagner Jr. es un actor estadounidense del cine clásico y televisión. En los años 50 fue una estrella juvenil de cine, en los 60 con papeles secundarios más adultos y en los 70 y 80 una es

Ver en Wikipedia

Ramos, Washington location

It is an honor to serve the residents of the 5th Legislative District. I am grateful and humbled that you’ve entrusted me to voice your concerns and bring your ideas to the table in Olympia · I believ

Choromanski, Krzysztof person

Krzysztof Choromanski works on several fields of machine learning & Robotics stretching from Monte Carlo methods for kernels through deep neural networks to reinforcement learning (RL), quadruped

Seyedhosseini, Mojtaba person

Seyed Mojtaba Hosseini. Writer: Five. Iranian Filmmaker that is living in Yazd city in the center of Iran. He is born on 1978. He has studied cinema in Tehran Rasaneh University. Traditions and ethnog

Zhou, Howard person

Howard Zhou (Preferred) Suggest Name · ****@gmail.com (Confirmed), ****@google.com (Confirmed) Suggest Email · Homepage · Google Scholar · DBLP · ORCID · LinkedIn · Semantic Scholar · Suggest URL · So

Araujo, Andre person

Adriana Fátima de Araújo, más conocida como Adriana Araújo, es una periodista brasileña.

Ver en Wikipedia