12 May 2026 · Original en inglés · Artículo

Búsqueda agentiva: el nuevo paradigma que desafía la recuperación de información tradicional

Fuentes: Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

En los sistemas de recuperación de información modernos, ya sean léxicos o semánticos, el corpus se expone a través de una interfaz de similitud fija que comprime el acceso en un único paso de recuperación top-k antes del razonamiento. Aunque esta abstracción es eficiente, se convierte en un cuello de botella para la búsqueda agentiva, donde tareas como implementar restricciones léxicas exactas, conjunciones de pistas escasas, verificaciones de contexto local y refinamiento multihipótesis son difíciles de lograr con un recuperador convencional. Además, las tareas agentivas requieren que los agentes orquesten múltiples pasos, incluyendo descubrir entidades intermedias, combinar pistas débiles y revisar el plan tras observar evidencia parcial.

Para abordar esta limitación, los investigadores proponen la Interacción Directa con el Corpus (DCI, por sus siglas en inglés), donde un agente busca en el corpus sin procesar utilizando herramientas de terminal de propósito general como grep, lecturas de archivos, comandos de shell o scripts ligeros, sin necesidad de modelos de embedding, índices vectoriales ni APIs de recuperación. Este enfoque no requiere indexación offline y se adapta naturalmente a corpus locales en evolución.

En experimentos realizados con benchmarks de IR y tareas de búsqueda agentiva de extremo a extremo, esta configuración simple supera sustancialmente a los métodos baseline sparse, dense y de reranking en varios datasets de BRIGHT y BEIR, alcanzando alta precisión en BrowseComp-Plus y QA multi-salto sin depender de recuperadores semánticos convencionales. Los resultados indican que, a medida que los agentes de lenguaje se vuelven más fuertes, la calidad de la recuperación depende no solo de la capacidad de razonamiento, sino también de la resolución de la interfaz a través de la cual el modelo interactúa con el corpus. DCI abre un espacio de diseño de interfaz más amplio para la búsqueda agentiva.

Esta aproximación beneficia a desarrolladores de sistemas de IA agentiva, investigadores en recuperación de información, y equipos que necesitan sistemas de búsqueda flexibles que evolucionen con corpus locales sin infraestructura compleja de indexación.

Temas

Etiquetas

recuperación de información búsqueda semántica inteligencia artificial procesamiento de lenguaje natural agentes de ia corpus de texto grep benchmarks ir modelos de lenguaje shell unix

Entidades mencionadas

grep software

Computer Science organization

Computer Sciences Corporation (CSC) was an American multinational corporation that provided information technology (IT) services and professional services.

BEIR event

arXivLabs organization

Absalón Gechman, más conocido como Ariel Absalón, fue un actor y director teatral con una amplia trayectoria en la escena argentina.

Ver en Wikipedia

Information Retrieval software

BRIGHT event

BrowseComp-Plus event

CORE organization

Los consejos regionales son órganos públicos colegiados, de carácter normativo, resolutivo y fiscalizador, dentro del ámbito propio de competencias de los gobiernos regionales, encargados de hacer efe

Ver en Wikipedia

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Hugging Face organization

Enlaces

What is the Explorer? info.arxiv.org

Learn more about arXivLabs info.arxiv.org

What is Huggingface? huggingface.co