En los sistemas de recuperación de información modernos, ya sean léxicos o semánticos, el corpus se expone a través de una interfaz de similitud fija que comprime el acceso en un único paso de recuperación top-k antes del razonamiento. Aunque esta abstracción es eficiente, se convierte en un cuello de botella para la búsqueda agentiva, donde tareas como implementar restricciones léxicas exactas, conjunciones de pistas escasas, verificaciones de contexto local y refinamiento multihipótesis son difíciles de lograr con un recuperador convencional. Además, las tareas agentivas requieren que los agentes orquesten múltiples pasos, incluyendo descubrir entidades intermedias, combinar pistas débiles y revisar el plan tras observar evidencia parcial.
Para abordar esta limitación, los investigadores proponen la Interacción Directa con el Corpus (DCI, por sus siglas en inglés), donde un agente busca en el corpus sin procesar utilizando herramientas de terminal de propósito general como grep, lecturas de archivos, comandos de shell o scripts ligeros, sin necesidad de modelos de embedding, índices vectoriales ni APIs de recuperación. Este enfoque no requiere indexación offline y se adapta naturalmente a corpus locales en evolución.
En experimentos realizados con benchmarks de IR y tareas de búsqueda agentiva de extremo a extremo, esta configuración simple supera sustancialmente a los métodos baseline sparse, dense y de reranking en varios datasets de BRIGHT y BEIR, alcanzando alta precisión en BrowseComp-Plus y QA multi-salto sin depender de recuperadores semánticos convencionales. Los resultados indican que, a medida que los agentes de lenguaje se vuelven más fuertes, la calidad de la recuperación depende no solo de la capacidad de razonamiento, sino también de la resolución de la interfaz a través de la cual el modelo interactúa con el corpus. DCI abre un espacio de diseño de interfaz más amplio para la búsqueda agentiva.
Esta aproximación beneficia a desarrolladores de sistemas de IA agentiva, investigadores en recuperación de información, y equipos que necesitan sistemas de búsqueda flexibles que evolucionen con corpus locales sin infraestructura compleja de indexación.
