SQLite ahora con búsqueda semántica: más allá de palabras clave

Fuentes: SQLite gains semantic search capabilities with Hamming distance

SQLite, una base de datos ligera y ampliamente utilizada, ha incorporado capacidades de búsqueda semántica gracias a una extensión desarrollada por un investigador. Anteriormente, SQLite solo ofrecía búsqueda textual a través de su extensión FTS5, pero carecía de la capacidad de combinar la coincidencia de palabras clave con la recuperación basada en el significado (búsqueda híbrida). La nueva extensión utiliza embeddings binarios (representaciones numéricas de texto) y la distancia de Hamming para lograr esto. Los embeddings binarios reducen significativamente el espacio de almacenamiento (de 4KB a 128 bytes por documento), aunque con una ligera pérdida de precisión. La distancia de Hamming, que calcula la diferencia en bits entre dos vectores, se utiliza para medir la similitud. La implementación, disponible como una extensión SQLite (archivo .so o .dylib), permite a los usuarios realizar búsquedas semánticas directamente dentro de la base de datos sin necesidad de bases de datos vectoriales externas. Las pruebas iniciales muestran un rendimiento prometedor, con tiempos de búsqueda de alrededor de 28-35 milisegundos para un millón de registros, aunque la eficiencia podría mejorarse aún más con técnicas de indexación más avanzadas. La extensión abre la puerta a la integración de la búsqueda semántica en aplicaciones que utilizan SQLite, combinándola con técnicas como la fusión de rangos recíprocos (RRF) para mejorar la relevancia de los resultados.