统计Dask数据帧中特定值的所有出现次数

2024-09-27 07:33:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个dask数据帧,包含数千列和行,如下所示:

pprint(daskdf.head())
   grid     lat      lon  ...  2014-12-29  2014-12-30  2014-12-31
0     0  48.125 -124.625  ...         0.0         0.0  -17.034216
1     0  48.625 -124.625  ...         0.0         0.0  -19.904214
4     0  42.375 -124.375  ...         0.0         0.0   -8.380443
5     0  42.625 -124.375  ...         0.0         0.0   -8.796803
6     0  42.875 -124.375  ...         0.0         0.0   -7.683688

我想统计整个数据帧中出现某个值的所有事件。在熊猫中,这可以通过以下方式完成:

pddf[pddf==500].count().sum()

我知道不能用dask翻译所有的函数/语法,但我如何用dask数据帧来翻译呢?我试着做:

daskdf[daskdf==500].count().sum().compute()

但这产生了一个“未实现”错误


Tags: 数据函数count方式语法事件headdask
1条回答
网友
1楼 · 发布于 2024-09-27 07:33:58

在许多情况下,在dask中还没有显式实现行方法的情况下,可以使用^{}。在这种情况下,这可能看起来像:

ppdf.map_partitions(lambda df: df[df==500].count()).sum().compute()

您可以尝试在lambda中执行.sum()是否有帮助(它将产生更小的中介体),以及map_partitionmeta=参数应该是什么样子

相关问题 更多 >

    热门问题