Cómo configurar un agente de codificación local en macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de intern

Indexar imágenes para RAG: describir una vez y recuperar como texto

Kapa.ai, empresa que construye asistentes de IA sobre documentación técnica, detalla en un extenso post cómo procesa los millones de imágenes (capturas, diagramas de arquitectura, esquemas de circuitos, tablas de especificaciones) que viven en sus bases de conocimiento. Tras varios meses de trabajo,

IA genera texto legible en imágenes: nuevo método

Un investigador ha desarrollado una nueva técnica para mejorar la precisión de texto y números en imágenes generadas por inteligencia artificial. El método, descrito por Sam Collins en su blog, permite generar imágenes con texto legible y numérico, algo que los modelos de IA actuales, como Gemini, s

IA multimodal en Mac: nueva herramienta facilita el ajuste

Un nuevo toolkit llamado 'gemma-tuner-multimodal' permite a los usuarios afinar modelos Gemma de Google para tareas de inteligencia artificial multimodal (texto, imágenes y audio) directamente en Macs con Apple Silicon. La herramienta, desarrollada por Mattmireles y disponible en GitHub, elimina la

Microsoft lanza IA multimodal: Phi-4 razona con imágenes

Microsoft ha lanzado Phi-4-Vision-Reasoning-15B, un nuevo modelo de inteligencia artificial multimodal de código abierto con 15 mil millones de parámetros. Este modelo destaca por su equilibrio entre capacidad de razonamiento, eficiencia y requisitos de datos de entrenamiento, permitiendo una intera

Google lanza Gemini 3.1 Pro: su IA más potente

Google ha anunciado el lanzamiento de Gemini 3.1 Pro, su modelo de inteligencia artificial más avanzado hasta la fecha, según un comunicado publicado en febrero de 2026. Este nuevo modelo, basado en Gemini 3 Pro, es capaz de procesar y comprender una amplia gama de datos multimodales, incluyendo tex