Parquet
software · 9 menciones
Noticias que mencionan Parquet
Hacker News: archivo completo ahora es un conjunto de datos
Hugging Face ha puesto a disposición un extenso conjunto de datos del archivo completo de Hacker News, abarcando desde 2006 hasta marzo de 2026. Este recurso, que incluye cada historia, comentario, pregunta, oferta de trabajo y encuesta publicada en la plataforma, se actualiza cada cinco minutos. Ha
Error en Shopify: Nombre de país causa interrupción de datos
Un error inesperado en el pipeline de datos de Shopify, causado por el nombre oficial del país de Moldavia, ha interrumpido temporalmente la replicación de datos a su sistema de análisis. El problema surgió porque el nombre completo de Moldavia, “Moldova, Republic of”, contenía una coma, que al ser
Vortex: Nueva compresión de datos supera a Parquet
SpiralDB ha anunciado que su sistema de compresión de datos Vortex supera significativamente a Parquet con ZSTD en términos de tamaño y velocidad de descompresión. Vortex utiliza un enfoque inspirado en el trabajo BtrBlocks de la TU Munich, que consiste en probar múltiples codecs de compresión y per
Google Street View: Análisis revela cobertura global
Este artículo describe el proceso de análisis de un conjunto de datos que rastrea la cobertura global de Google Street View a lo largo del tiempo. El autor, Mark Litwintschik, utiliza una potente estación de trabajo (con un procesador AMD Ryzen 9, 96GB de RAM y un SSD NVMe de alta velocidad) y la ba
Alerta temprana de despidos: nueva herramienta rastrea WARN Act
Una nueva herramienta llamada WARN Firehose ha sido lanzada para rastrear y centralizar las notificaciones de despidos masivos (WARN Act) de todos los 50 estados de EE. UU. La plataforma, disponible desde ahora, recopila y unifica estos avisos, que tradicionalmente se encuentran dispersos en diverso
DataStudio: análisis de datos local y sin nube
Un nuevo software de análisis y visualización de datos llamado DataStudio ha sido lanzado, permitiendo a los usuarios explorar y manipular datos directamente en sus navegadores web. Desarrollado por Dataspren Analytics y disponible en GitHub, DataStudio se distingue por su enfoque en la privacidad y
Guía de Ingeniería de Datos para Modelos de IA
En la era de los grandes modelos de lenguaje (LLM), la calidad de los datos se ha convertido en el factor determinante que limita su rendimiento. El libro "Data Engineering for LLMs" de Datascale-AI aborda esta problemática, ofreciendo una guía completa y práctica para la ingeniería de datos necesar
Lance: Nueva alternativa para Big Data
Un nuevo formato de archivo y tabla llamado Lance ha surgido como una alternativa optimizada a Apache Iceberg y Delta Lake, generando interés en el mundo del big data y el almacenamiento de objetos. Desarrollado en 2025, Lance combina un formato de archivo similar a Parquet (optimizado para lecturas
Overture Lanza Base de Datos Global de 72 Millones de POI
Overture Maps ha publicado un conjunto de datos masivo de 72.4 millones de puntos de interés (POI) que cubre el mundo, como parte de sus lanzamientos mensuales. Estos POI están etiquetados con nombres, categorías y otra información relevante, y el conjunto de datos ha sido mejorado continuamente con
