如何在Python中透视大数据

2024-10-06 07:49:01 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一张有1.4亿条记录的桌子

我有聚合数据我的数据是这样的

filename code frequency
1054968  A837 3
1054968  F939 2
9899223  W821 8
3775859  A837 5
..
..
..

我想将数据透视成这样

filename  A837  ...  F939 ...  W821 ...
1054968    3          2         0
9899223    0          0         8
3775859    5          0         0

我用这个方法

df_pivot = df_features.pivot(index='filename', columns='code', values='frequency')

它可以很好地处理大约100000条记录，但当达到100万条时

我得到这个错误

    "Unstacked DataFrame is too big, " "causing int32 overflow"

ValueError: Unstacked DataFrame is too big, causing int32 overflow

我该怎么做呢？（透视后的总列数应为36000左右）

Tags：数据 dataframe df is 记录 code filename too

0条回答

目前没有回答