Un nuevo parser de código abierto llamado Hardwood ha sido lanzado para el formato de archivo Apache Parquet. Desarrollado por Gunnar Morling, Hardwood busca ofrecer una alternativa más eficiente y con menos dependencias a la biblioteca parquet-java existente, que es ampliamente utilizada pero incluye Hadoop como dependencia y opera de forma single-threaded. Hardwood, disponible en Maven Central bajo la licencia Apache 2.0, está escrito en Java 21 y utiliza una arquitectura multi-hilo para acelerar el proceso de parsing, distribuyendo la carga de trabajo entre múltiples núcleos de CPU. Incluye APIs tanto orientadas a filas como a columnas, siendo la segunda optimizada para el máximo rendimiento. Las pruebas iniciales con un conjunto de datos de taxis de Nueva York muestran mejoras significativas en la velocidad de parsing, especialmente al utilizar la API columnar. El proyecto se enfoca en optimizar el rendimiento para archivos con esquemas planos, aunque también soporta archivos con esquemas anidados.
