“Mean”不适用于Pandas数据帧，从Pickle读取16 x 200000+个观察值

2024-10-08 16:39:05 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个36.9MB的pickle文件，它是一个包含16个变量和239427个观察值的数据文件

（实际上，我有许多其他pickle文件，每个文件有16个变量，根据观察的数量从6.8 MB到36.9 MB不等。但我似乎只对最大的文件有问题…这让我相信可能是文件太大了…）

我用Python中的熊猫来读泡菜，所以：

df = pd.read_pickle('filename.pickle')

我对这个数据框架的描述性统计很感兴趣。所以我使用了DataFrame descripe函数，如下所示：

df.describe()

该函数适用于我的所有pickle文件，作为输出，我得到“count”、“mean”、“std”、“min”、“max”等

但是，如果我尝试对来自最大pickle文件的数据帧使用“mean”函数，如下所示：

df.mean()

我的Python笔记本花了很长时间“忙”，然后似乎超时了

有人能帮我理解为什么会这样吗？我很困惑

看来std函数确实工作得很好：

df.std()

最后，我要计算每个变量的相对标准差（所以我需要每个变量的平均值和标准差）。我计划遍历数据帧列表

Tags：文件数据函数 df read 数量数据文件 mb

0条回答

目前没有回答