08 Mar 2026 · Original en inglés · Resumen IA

Microsoft lanza IA multimodal: Phi-4 razona con imágenes

Fuentes: Microsoft releases Phi-4-Vision-Reasoning, a new multimodal AI model

Microsoft ha lanzado Phi-4-Vision-Reasoning-15B, un nuevo modelo de inteligencia artificial multimodal de código abierto con 15 mil millones de parámetros. Este modelo destaca por su equilibrio entre capacidad de razonamiento, eficiencia y requisitos de datos de entrenamiento, permitiendo una interacción natural en una amplia gama de tareas de visión y lenguaje, especialmente en razonamiento matemático y científico, y en la comprensión de interfaces de usuario. A diferencia de muchos modelos VLMs actuales que se basan en un gran número de tokens, Phi-4-Vision-Reasoning-15B se enfoca en la eficiencia, logrando un rendimiento competitivo con modelos más grandes y costosos en términos de cómputo. El modelo fue entrenado con 200 mil millones de tokens, significativamente menos que otros modelos similares, y utiliza una arquitectura de fusión intermedia y un codificador de visión con resolución dinámica para mejorar el rendimiento, especialmente con imágenes de alta resolución. Microsoft comparte las lecciones aprendidas y las mejores prácticas en el desarrollo de este modelo, con el objetivo de contribuir a la comunidad y promover la creación de modelos multimodales más pequeños y eficientes.

Temas

empresas ia

Etiquetas

microsoft phi-4 inteligencia artificial multimodal ai código abierto vision-language models razonamiento eficiencia arquitectura de modelos codificador de visión

Entidades mencionadas

HuggingFace organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

Phi-4 software

Microsoft organization

Microsoft Corporation es una empresa tecnológica multinacional con sede en Redmond (Washington), Estados Unidos. Los productos de software más conocidos de la firma son la línea de sistemas operativos

Ver en Wikipedia

GitHub organization

GitHub es una forja para alojar proyectos utilizando el sistema de control de versiones Git. Se utiliza principalmente para la creación de código fuente de programas de computadora. El software que op

Ver en Wikipedia

Phi-4-reasoning-vision-15B software

Phi family of models software

Phi-4-Reasoning software

Qwen 2.5 VL software

Qwen 3 VL software

Kimi-VL software

Gemma3 software

SigLIP-2 software

Microsoft Foundry organization

Microsoft Foundation Classes o MFC es un conjunto de clases interconectadas por múltiples relaciones de herencia, que proveen un acceso más sencillo a las API de Windows. Fueron introducidas por Micro

Ver en Wikipedia