用Python保存数据帧字典的最佳文件格式是什么?

2024-09-27 00:21:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我有365个数据帧,每个数据帧与一年中的一个日期关联。因为我想通过指定日期来很容易地提取它们。我使用字典将每个日期映射到它的数据框。保存此词典的最佳格式是什么D

D = {"2019-01-01":df1, "2019-01-02":df2, ... , "2019-12-31":df365}

我所说的“最佳”是指以下(优先级递减)):

  • 可行性:由于序列化问题,并非所有格式都适合
  • 可访问性:理想情况下,我可以将数据集上载到Github/GoogleDrive,并使用链接加载它
  • 空间效率:尽可能小的文件
  • 兼容性:理想情况下,我可以用Python或R语言加载数据集

所以我猜选项包括.json.npz/.npy.p


Tags: 数据github字典序列化链接格式空间情况
2条回答

365个数据帧是否具有相同的列?您可以将整个数据集展平为一个数据帧,然后按日期查询。将使用更多的空间,但接近在表格数据库中可以实现的效果

你可以把整本书译成一本词典。熊猫数据帧有一个.to_dict()方法。 只需将每个数据帧转换为dict并替换即可。将整个内容转储到json中。这将比python对象(如pickle)的内存效率更高

毫无疑问,您还需要编写一些琐碎的额外代码来将其全部转换回来

相关问题 更多 >

    热门问题