F3: un nuevo formato de archivo columnar open source con decodificadores Wasm integrados

Fuentes: F3: The Open-Source Data File Format for the Future

F3 (Future-proof File Format) es un formato de archivo de datos columnar y de código abierto presentado por un equipo de investigadores encabezado por Xinyu Zeng, con publicación prevista en SIGMOD 2026 a través de Proc. ACM Manag. Data. Su objetivo es superar las limitaciones estructurales de formatos ya consolidados como Parquet u ORC, concebidos hace más de una década para entornos de hardware y cargas de trabajo muy distintos de los actuales.

El proyecto se apoya en tres principios de diseño: interoperabilidad, extensibilidad y eficiencia. Para garantizar la extensibilidad —lo que sus autores denominan «future-proof»—, cada fichero F3 incluye, junto con los datos y sus metadatos, binarios WebAssembly (Wasm) capaces de decodificar la información. De este modo, cualquier sistema puede interpretar el archivo aunque no disponga de un decodificador nativo, ya que el módulo Wasm embebido ocupa apenas unos pocos kilobytes. La arquitectura también contempla una API de propósito general que permite a los desarrolladores añadir nuevos esquemas de codificación sin necesidad de redefinir el formato.

El repositorio en GitHub (future-file-format/F3) constituye un prototipo de investigación que verifica las ideas del artículo. No se recomienda su uso en producción y solo se ha probado en máquinas Intel con Debian 12. La estructura del código se organiza en submódulos: fff-poc (implementación principal), fff-bench (benchmarks y experimentos del paper), fff-ude-* (codificación definida por el usuario basada en Wasm) y un esquema del formato definido con FlatBuffers. Las instrucciones de compilación se basan en Cargo, y los experimentos se reproducen siguiendo la guía doc/paper_reproduction.md. El proyecto se distribuye bajo licencia MIT.

Las evaluaciones presentadas en el artículo comparan F3 con formatos open source anteriores y actuales, y los autores concluyen que su diseño de almacenamiento y el descodificación dirigida por Wasm ofrecen ventajas medibles en eficacia y compatibilidad.