multimodal ai - ojeo.com

12 Jun 2026

Cómo configurar un agente de codificación local en macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de intern

08 Jun 2026

Apple presenta una nueva arquitectura de IA basada en los modelos Gemini de Google

Apple ha anunciado una revisión profunda de su plataforma Apple Intelligence con una nueva arquitectura basada en modelos fundacionales desarrollados junto a Google a partir de las tecnologías de la familia Gemini. Los nuevos modelos, adaptados para ejecutarse tanto en el dispositivo como en servido

03 Jun 2026

Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles

Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles Google ha presentado Gemma 4 12B, un nuevo modelo de inteligencia artificial de código abierto que destaca por su arquitectura multimodal unificada y por su capacidad de ejecutarse en portátiles convencionales

02 Jun 2026

Indexar imágenes para RAG: describir una vez y recuperar como texto

Kapa.ai, empresa que construye asistentes de IA sobre documentación técnica, detalla en un extenso post cómo procesa los millones de imágenes (capturas, diagramas de arquitectura, esquemas de circuitos, tablas de especificaciones) que viven en sus bases de conocimiento. Tras varios meses de trabajo,

04 May 2026

IA genera texto legible en imágenes: nuevo método

Un investigador ha desarrollado una nueva técnica para mejorar la precisión de texto y números en imágenes generadas por inteligencia artificial. El método, descrito por Sam Collins en su blog, permite generar imágenes con texto legible y numérico, algo que los modelos de IA actuales, como Gemini, s

07 Apr 2026

IA multimodal en Mac: nueva herramienta facilita el ajuste

Un nuevo toolkit llamado 'gemma-tuner-multimodal' permite a los usuarios afinar modelos Gemma de Google para tareas de inteligencia artificial multimodal (texto, imágenes y audio) directamente en Macs con Apple Silicon. La herramienta, desarrollada por Mattmireles y disponible en GitHub, elimina la

08 Mar 2026

Microsoft lanza IA multimodal: Phi-4 razona con imágenes

Microsoft ha lanzado Phi-4-Vision-Reasoning-15B, un nuevo modelo de inteligencia artificial multimodal de código abierto con 15 mil millones de parámetros. Este modelo destaca por su equilibrio entre capacidad de razonamiento, eficiencia y requisitos de datos de entrenamiento, permitiendo una intera

20 Feb 2026

Google lanza Gemini 3.1 Pro: su IA más potente

Google ha anunciado el lanzamiento de Gemini 3.1 Pro, su modelo de inteligencia artificial más avanzado hasta la fecha, según un comunicado publicado en febrero de 2026. Este nuevo modelo, basado en Gemini 3 Pro, es capaz de procesar y comprender una amplia gama de datos multimodales, incluyendo tex