Microsoft ha lanzado Phi-4-Vision-Reasoning-15B, un nuevo modelo de inteligencia artificial multimodal de código abierto con 15 mil millones de parámetros. Este modelo destaca por su equilibrio entre capacidad de razonamiento, eficiencia y requisitos de datos de entrenamiento, permitiendo una interacción natural en una amplia gama de tareas de visión y lenguaje, especialmente en razonamiento matemático y científico, y en la comprensión de interfaces de usuario. A diferencia de muchos modelos VLMs actuales que se basan en un gran número de tokens, Phi-4-Vision-Reasoning-15B se enfoca en la eficiencia, logrando un rendimiento competitivo con modelos más grandes y costosos en términos de cómputo. El modelo fue entrenado con 200 mil millones de tokens, significativamente menos que otros modelos similares, y utiliza una arquitectura de fusión intermedia y un codificador de visión con resolución dinámica para mejorar el rendimiento, especialmente con imágenes de alta resolución. Microsoft comparte las lecciones aprendidas y las mejores prácticas en el desarrollo de este modelo, con el objetivo de contribuir a la comunidad y promover la creación de modelos multimodales más pequeños y eficientes.
