Pandas HDFStore:更改索引的数据类型

2024-10-05 17:38:16 发布

您现在位置:Python中文网/ 问答频道 /正文

在使用HDFStore.append时,是否存在一种控制用于存储数据帧索引的数据类型的方法?

熊猫索引似乎总是以64位存储在hdf5文件中。我想提高存储效率并减小索引列的大小。在

我有一个独特的3列多索引,将它们保存为uint64索引在我的应用程序中是一个巨大的空间浪费:

给出以下数据帧

In [15]: df.dtypes
Out[15]: indA              int32
indB              int16
indC              int8
data              float32
dtype: object

只在

不设置pandas索引并指定pytables数据列:

^{pr2}$

indAindB和{}与它们的原始数据类型一起存储,但是在hdf5文件中存储了另外一个{}。在

这实际上没有帮助:通过在原始数据类型中存储,我为三个ind列保存了56位。额外的(多余的)索引列却要花费64位。。。在

有什么想法吗?在


Tags: 文件数据方法应用程序类型原始数据空间hdf5
1条回答
网友
1楼 · 发布于 2024-10-05 17:38:16

你的方法是正确的。数据列提供搜索功能并提供数据类型保存。目前索引存储非常固定。在

提供存储索引的选项是一个开放的问题,请参见here。我做了一些工作,但它不是高优先级的ATM机。欢迎你来看看。在

想要缩小存储空间,通常的答案是使用压缩。为了节省相对较少的存储空间,您似乎要经历许多困难,但那是my2c

相关问题 更多 >