在使用HDFStore.append时,是否存在一种控制用于存储数据帧索引的数据类型的方法?
熊猫索引似乎总是以64位存储在hdf5文件中。我想提高存储效率并减小索引列的大小。在
我有一个独特的3列多索引,将它们保存为uint64索引在我的应用程序中是一个巨大的空间浪费:
给出以下数据帧
In [15]: df.dtypes
Out[15]: indA int32
indB int16
indC int8
data float32
dtype: object
只在 不设置pandas索引并指定pytables数据列: 这实际上没有帮助:通过在原始数据类型中存储,我为三个 有什么想法吗?在indA
、indB
和{ind
列保存了56位。额外的(多余的)索引列却要花费64位。。。在
你的方法是正确的。数据列提供搜索功能并提供数据类型保存。目前索引存储非常固定。在
提供存储索引的选项是一个开放的问题,请参见here。我做了一些工作,但它不是高优先级的ATM机。欢迎你来看看。在
想要缩小存储空间,通常的答案是使用压缩。为了节省相对较少的存储空间,您似乎要经历许多困难,但那是my2c
相关问题 更多 >
编程相关推荐