La función 'More Like This' (MLT) permite buscar documentos similares a partir de un resultado ya seleccionado, en lugar de partir de una consulta escrita. El enfoque clásico era léxico: se extraían los términos relevantes del documento fuente y se comparaban con los de otros textos mediante técnicas de búsqueda textual como TF-IDF o BM25. Este método sigue siendo eficaz para coincidencias exactas como códigos de error, SKU, números de pieza, nombres de funciones o trazas de pila, y resulta económico porque reutiliza el índice invertido y los analizadores del motor de búsqueda.
La limitación aparece cuando dos documentos expresan lo mismo con palabras distintas: sinónimos, paráfrasis o similitud entre idiomas escapan al análisis léxico. Los embeddings, representaciones numéricas densas de los documentos almacenadas como vectores en el índice, resuelven esta brecha al comparar la cercanía semántica entre vectores mediante búsqueda de vecinos más cercanos (KNN) o sus variantes aproximadas (ANN). Esto amplía la aplicación de MLT a productos, imágenes, fragmentos de código, eventos de usuario o contextos para sistemas RAG de generación aumentada por recuperación.
En la práctica, los sistemas de producción combinan ambos enfoques mediante búsqueda híbrida: la búsqueda textual aporta coincidencias exactas, la vectorial añade resultados por significado, los filtros restringen el espacio y un reranking refina el orden final. Motores como Manticore Search permiten ejecutar esta operación directamente con una consulta SQL tipo WHERE knn(embedding, 10, 123), tomando el vector del documento fuente por su identificador y devolviendo los más cercanos con su distancia. La tendencia apunta a que MLT se gestione dentro del propio motor de búsqueda, en lugar de reconstruir el vector en la capa de aplicación.
