我有这样一个dask数据帧:
pprint(daskdf.iloc[:,95:100].head())
1980-04-02 1980-04-03 1980-04-04 1980-04-05 1980-04-06
0 3.459240 0.0 2.296430 5.771730 13.344725
1 5.036489 0.0 1.021041 3.930686 8.015582
2 0.000000 0.0 0.667812 4.580948 9.824745
3 0.000000 0.0 0.708841 5.247479 10.690757
4 0.000000 0.0 0.293334 4.057512 9.703477
在pandas中,为了计算整个数据帧的方差,我将使用stack函数,如下所示(我仅使用5列作为示例来显示数据的外观):
data.iloc[:,95:100].stack().var()
Out[50]: 21.58617875939196
然而,我不能在dask中这样做,我也不能堆叠一个pandas数据帧然后转换成dask,因为dask不支持多维索引。使用.var().mean().compute()也不会计算相同的统计数据。如何计算整个数据集的方差和/或在dask中使用堆栈函数
一种方法是使用Dask数组的
var
函数相关问题 更多 >
编程相关推荐