计算整个Dask数据帧的方差

2024-09-27 07:29:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这样一个dask数据帧:

pprint(daskdf.iloc[:,95:100].head())
   1980-04-02  1980-04-03  1980-04-04  1980-04-05  1980-04-06
0    3.459240         0.0    2.296430    5.771730   13.344725
1    5.036489         0.0    1.021041    3.930686    8.015582
2    0.000000         0.0    0.667812    4.580948    9.824745
3    0.000000         0.0    0.708841    5.247479   10.690757
4    0.000000         0.0    0.293334    4.057512    9.703477

在pandas中,为了计算整个数据帧的方差,我将使用stack函数,如下所示(我仅使用5列作为示例来显示数据的外观):

data.iloc[:,95:100].stack().var()
Out[50]: 21.58617875939196

然而,我不能在dask中这样做,我也不能堆叠一个pandas数据帧然后转换成dask,因为dask不支持多维索引。使用.var().mean().compute()也不会计算相同的统计数据。如何计算整个数据集的方差和/或在dask中使用堆栈函数


Tags: 数据函数示例pandasdatastackvarout

热门问题