Google Street View: Análisis revela cobertura global

Fuentes: Mark Litwintschik

Este artículo describe el proceso de análisis de un conjunto de datos que rastrea la cobertura global de Google Street View a lo largo del tiempo. El autor, Mark Litwintschik, utiliza una potente estación de trabajo (con un procesador AMD Ryzen 9, 96GB de RAM y un SSD NVMe de alta velocidad) y la base de datos DuckDB para transformar y analizar los datos.

El conjunto de datos original, disponible en geo.emily.bz, contiene información sobre el mes y año de la última captura de Street View en diferentes ubicaciones del mundo. El primer paso es convertir estos datos, que están en formato JSON, a un formato más eficiente para el análisis: Parquet. DuckDB, una base de datos analítica en memoria, se utiliza para este propósito, junto con extensiones para manejar formatos JSON, Parquet, datos espaciales (H3, Lindel, Spatial) y para facilitar la carga de datos.

Una vez que los datos están en formato Parquet, se pueden analizar para identificar patrones espaciales en la cobertura de Street View. El autor utiliza QGIS (un software de información geográfica de código abierto) para visualizar estos patrones en mapas, mostrando cómo la cobertura ha evolucionado con el tiempo. Los mapas muestran áreas con capturas más recientes (colores más brillantes) y áreas con capturas más antiguas (colores más oscuros). Se observan patrones interesantes en Europa, India, Australia, América del Norte y América Latina.

El análisis también incluye una agregación de los datos para mostrar el número de puntos de cobertura por año, revelando tendencias en la frecuencia de las actualizaciones de Street View. Se identifican algunas regiones (Bosnia y Herzegovina, Chipre, Namibia, Paraguay y Vietnam) donde los datos están incompletos y se espera que se actualicen en el futuro. La elección de DuckDB y Parquet permite un procesamiento eficiente de grandes volúmenes de datos, mientras que QGIS facilita la visualización y la interpretación de los resultados. El artículo proporciona una guía práctica para trabajar con datos geoespaciales y demuestra el poder de las herramientas de código abierto para el análisis de datos.