我有一个dask数据帧,包含数千列和行,如下所示:
pprint(daskdf.head())
grid lat lon ... 2014-12-29 2014-12-30 2014-12-31
0 0 48.125 -124.625 ... 0.0 0.0 -17.034216
1 0 48.625 -124.625 ... 0.0 0.0 -19.904214
4 0 42.375 -124.375 ... 0.0 0.0 -8.380443
5 0 42.625 -124.375 ... 0.0 0.0 -8.796803
6 0 42.875 -124.375 ... 0.0 0.0 -7.683688
我想统计整个数据帧中出现某个值的所有事件。在熊猫中,这可以通过以下方式完成:
pddf[pddf==500].count().sum()
我知道不能用dask翻译所有的函数/语法,但我如何用dask数据帧来翻译呢?我试着做:
daskdf[daskdf==500].count().sum().compute()
但这产生了一个“未实现”错误
在许多情况下,在dask中还没有显式实现行方法的情况下,可以使用^{} 。在这种情况下,这可能看起来像:
您可以尝试在lambda中执行
.sum()
是否有帮助(它将产生更小的中介体),以及map_partition
的meta=
参数应该是什么样子相关问题 更多 >
编程相关推荐