10 Jun 2026 · Original en inglés · Artículo

La evolución de la búsqueda 'Más como esto': de lo léxico a los embeddings

Fuentes: The Evolution of 'More Like This'

Imagen generada por IA con el prompt: Editorial illustration of a document transforming into a glowing vector grid, with similar documents floating nearby connected by luminous threads, dark blue tech background, clean vector style. — Imagen generada con IA

La función 'More Like This' (MLT) permite buscar documentos similares a partir de un resultado ya seleccionado, en lugar de partir de una consulta escrita. El enfoque clásico era léxico: se extraían los términos relevantes del documento fuente y se comparaban con los de otros textos mediante técnicas de búsqueda textual como TF-IDF o BM25. Este método sigue siendo eficaz para coincidencias exactas como códigos de error, SKU, números de pieza, nombres de funciones o trazas de pila, y resulta económico porque reutiliza el índice invertido y los analizadores del motor de búsqueda.

La limitación aparece cuando dos documentos expresan lo mismo con palabras distintas: sinónimos, paráfrasis o similitud entre idiomas escapan al análisis léxico. Los embeddings, representaciones numéricas densas de los documentos almacenadas como vectores en el índice, resuelven esta brecha al comparar la cercanía semántica entre vectores mediante búsqueda de vecinos más cercanos (KNN) o sus variantes aproximadas (ANN). Esto amplía la aplicación de MLT a productos, imágenes, fragmentos de código, eventos de usuario o contextos para sistemas RAG de generación aumentada por recuperación.

En la práctica, los sistemas de producción combinan ambos enfoques mediante búsqueda híbrida: la búsqueda textual aporta coincidencias exactas, la vectorial añade resultados por significado, los filtros restringen el espacio y un reranking refina el orden final. Motores como Manticore Search permiten ejecutar esta operación directamente con una consulta SQL tipo WHERE knn(embedding, 10, 123), tomando el vector del documento fuente por su identificador y devolviendo los más cercanos con su distancia. La tendencia apunta a que MLT se gestione dentro del propio motor de búsqueda, en lugar de reconstruir el vector en la capa de aplicación.

Etiquetas

more like this vector search embeddings hybrid search semantic search knn bm25 rag manticore search

Entidades mencionadas

BM25 protocol_standard

Manticore Search software

TF-IDF protocol_standard

KNN protocol_standard

ANN protocol_standard