我正在与vaex和dask合作进行一些分析。在分析的第一部分中,我对dask.dataframe
进行了一些处理,我的目的是将我计算的数据帧导出到vaex读取的内容中。我想将数据导出到内存可映射的格式,如hdf或arrow
dask允许导出到hdf和拼花文件中。Vaex允许以hdf和箭头形式导入。两者都允许导出和导入为csv文件,但我想避免这种情况
到目前为止,我有以下选择(和问题):
我当然可以将其导出到csv中,并将其分块加载到vaex中,然后将其导出到列格式的hdf中,但我不认为这应该是两个模块用于大型对象的目的
是否有我缺少的任何选项可以兼容“桥接”两个模块,而无需将完整的表加载到内存中,或必须读/写数据集两次
为了使用vaex打开parquet,您应该使用
vaex.open
,并且文件的扩展名必须是parquet生成数据
示例:使用dask进行聚合和保存
用vaex阅读
相关问题 更多 >
编程相关推荐