Parquet / GeoParquet(云原生空间数据格式)
Parquet是一种高效的列式存储格式,专为大数据分析场景设计,支持嵌套数据结构、高压缩比和谓词下推,能显著减少I/O开销;GeoParquet是其面向地理空间数据的标准化扩展,由开放地理空间联盟(OGC)定义,将点、线、多边形等几何对象以WKB(Well-Known Binary)格式嵌入Parquet 文件,并在元数据中明确声明坐标参考系(CRS)与几何类型,从而实现与GeoPandas、Apache Arrow、DuckDB、ArcGIS Pro等主流空间分析工具的无缝兼容,其列式结构与云原生特性使其在S3、HDFS等分布式存储中具备高效读取、动态查询与跨平台互操作能力,平均压缩率可达6.5倍,相比传统Shapefile可节省约85%存储空间。
2026/04/22Feather / GeoArrow(高性能列式空间数据格式)
Feather是由Apache Arrow团队开发的高性能列式二进制数据格式,专为跨语言(如 Python、R)高效交换数据而设计,采用内存映射和列式存储结构,读写速度远超CSV,支持包括数值、时间戳、分类变量及NA值在内的丰富数据类型,并可选LZ4或ZSTD压缩以提升存储效率;GeoArrow是Feather的空间扩展,将WKB、WKT等地理几何类型直接嵌入Apache Arrow的列式内存模型中,实现与GeoPandas、sf等GIS工具的零拷贝交互,在保持高性能的同时标准化了空间数据的存储与传输,成为替代Shapefile和GeoJSON的新一代高效地理数据格式。
2026/04/21
咨询客服