Google ha anunciado una actualización majeure de su herramienta File Search dentro de la Gemini API, convirtiéndose en multimodal para permitir la construcción de sistemas de generación aumentada por recuperación (RAG) con datos visuales y textuales. La nueva versión, impulsada por el modelo Gemini Embedding 2, permite procesar imágenes y texto de manera conjunta, proporcionando a las aplicaciones una 'memoria fotográfica' capaz de buscar archivos visuales mediante descripciones en lenguaje natural. Entre las funcionalidades destacadas se encuentran los metadatos personalizados, que facilitan el filtrado de información irrelevante adjuntando etiquetas clave como departamento o estado a los datos no estructurados, y las citas de página, que vinculan las respuestas del modelo directamente con la fuente original, indicando el número de página de cada información indexada. Esta actualización busca mejorar tanto la verificabilidad como la transparencia en los sistemas RAG, permitiendo a los usuarios verificar el origen de las respuestas obtenidas de documentos extensos como PDFs. La herramienta está diseñada para adaptarse tanto a prototipos de proyectos como a aplicaciones de producción escalables.
Gemini API ahora busca imágenes y texto con lenguaje natural
