我有一个36.9MB的pickle文件,它是一个包含16个变量和239427个观察值的数据文件
(实际上,我有许多其他pickle文件,每个文件有16个变量,根据观察的数量从6.8 MB到36.9 MB不等。但我似乎只对最大的文件有问题…这让我相信可能是文件太大了…)
我用Python中的熊猫来读泡菜,所以:
df = pd.read_pickle('filename.pickle')
我对这个数据框架的描述性统计很感兴趣。所以我使用了DataFrame descripe函数,如下所示:
df.describe()
该函数适用于我的所有pickle文件,作为输出,我得到“count”、“mean”、“std”、“min”、“max”等
但是,如果我尝试对来自最大pickle文件的数据帧使用“mean”函数,如下所示:
df.mean()
我的Python笔记本花了很长时间“忙”,然后似乎超时了
有人能帮我理解为什么会这样吗?我很困惑
看来std函数确实工作得很好:
df.std()
最后,我要计算每个变量的相对标准差(所以我需要每个变量的平均值和标准差)。我计划遍历数据帧列表
目前没有回答
相关问题 更多 >
编程相关推荐