“Mean”不适用于Pandas数据帧,从Pickle读取16 x 200000+个观察值

2024-10-08 16:39:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个36.9MB的pickle文件,它是一个包含16个变量和239427个观察值的数据文件

(实际上,我有许多其他pickle文件,每个文件有16个变量,根据观察的数量从6.8 MB到36.9 MB不等。但我似乎只对最大的文件有问题…这让我相信可能是文件太大了…)

我用Python中的熊猫来读泡菜,所以:

df = pd.read_pickle('filename.pickle')

我对这个数据框架的描述性统计很感兴趣。所以我使用了DataFrame descripe函数,如下所示:

df.describe()

该函数适用于我的所有pickle文件,作为输出,我得到“count”、“mean”、“std”、“min”、“max”等

但是,如果我尝试对来自最大pickle文件的数据帧使用“mean”函数,如下所示:

df.mean()

我的Python笔记本花了很长时间“忙”,然后似乎超时了

有人能帮我理解为什么会这样吗?我很困惑

看来std函数确实工作得很好:

df.std()

最后,我要计算每个变量的相对标准差(所以我需要每个变量的平均值和标准差)。我计划遍历数据帧列表


Tags: 文件数据函数dfread数量数据文件mb

热门问题