如何在Python中透视大数据

2024-10-06 07:49:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一张有1.4亿条记录的桌子

我有聚合数据 我的数据是这样的

filename code frequency
1054968  A837 3
1054968  F939 2
9899223  W821 8
3775859  A837 5
..
..
..

我想将数据透视成这样

filename  A837  ...  F939 ...  W821 ...
1054968    3          2         0
9899223    0          0         8
3775859    5          0         0

我用这个方法

df_pivot = df_features.pivot(index='filename', columns='code', values='frequency')

它可以很好地处理大约100000条记录,但当达到100万条时

我得到这个错误

    "Unstacked DataFrame is too big, " "causing int32 overflow"

ValueError: Unstacked DataFrame is too big, causing int32 overflow

我该怎么做呢?(透视后的总列数应为36000左右)


Tags: 数据dataframedfis记录codefilenametoo