Por qué las comparativas de bases de datos engañan: un experimento con ClickBench

Fuentes: Lies, Damn Lies and Database Benchmarks

Una prueba comparativa de bases de datos analíticas saca a la luz los sesgos ocultos que distorsionan los rankings públicos. El equipo de QuestDB replica ClickBench —el benchmark de referencia creado por ClickHouse, con 100 millones de filas, 105 columnas y 43 consultas analíticas— sobre un equipo local fijo (Ryzen 9 7900, 64 GB de RAM, NVMe, Ubuntu 24.04) para comparar DuckDB 1.5.4, ClickHouse 26.6, DataFusion 53.1.0, Polars, Salesforce Hyper y CrateDB 6.3.3, además de QuestDB 9.4.3, versión que corrige dos errores documentados en 9.3.1: la ausencia de la función length_bytes() y el cambio de nombre del parámetro query.timeout.

Los autores explican por qué la métrica de arranque en frío de ClickBench resulta asimétrica: solo puede forzarse en bases autogestionadas, lo que favorece a los servicios en la nube. Para evitar esa distorsión, el análisis se centra exclusivamente en la ejecución en caliente, calculada como media geométrica de la razón entre el tiempo de cada motor y el mejor tiempo de la consulta. En el escenario base, con un único archivo Parquet de 14 GB, DuckDB lidera con 1,353, seguido muy de cerca por Polars (1,361); DataFusion y ClickHouse quedan en la franja intermedia y Hyper cierra la tabla con 3,609.

El artículo advierte de que, más allá del hardware y la configuración, la propia mecánica del benchmark introduce variables difícilmente controlables —el calentamiento del proceso, el ciclo de vida de los clientes, las cachés del sistema operativo y el desigual tratamiento entre bases locales y servicios gestionados—, por lo que cualquier ranking debe interpretarse con cautela y, ante la duda, conviene medir en la propia máquina.