重新划分dask数据帧以减少滚动期间的洗牌

2024-10-03 11:20:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我在一家公司工作,这家公司需要做一些非常紧张的汇总工作

对于过去两年的每一笔销售,他们都希望获得销售前一个月的滚动汇总数据。聚合本身并不重要。两年的数据约为550万行

我想我应该使用Dasks滚动函数,为数据帧提供一个数据范围索引

我使用的机器有4个核心,所以我决定对数据使用8个分区,并将其重新分区为8个3个月的分区

但是,有一个问题。这3个分区中每个分区的第一个月都必须滚动到另一个分区中。这将涉及洗牌约200万行

我在考虑如何合并一个月的副本,它将被滚动到每个分区的开头,但我想不出一个有效的方法来做到这一点

有什么建议吗


Tags: 数据方法函数机器核心副本公司建议