大时间序列数据上不同大小的块

DATE STORE COD SKU UNITS_SOLD 2018-02-01 HD01 CD 70 539.000 2018-03-01 HD01 CD 70 511.000 2018-04-01 HD01 CD 70 468.000 2018-05-01 HD01 CD 70 447.000 2018-06-01 HD01 CD 70 382.000 2018-07-01 HD01 CD 70 348.000 2018-02-01 HA01 CD 80 539.000 2018-03-01 HA01 CD 80 511.000 2018-04-01 HA01 CD 80 468.000 2018-05-01 HA01 CD 80 447.000 2018-06-01 HA01 CD 80 382.000 2018-07-01 HA01 CD 80 348.000

2条回答

网友

1楼 · 编辑于 2024-06-26 01:53:07

您可能应该在发送的SQL中使用groupby，这意味着您需要遍历SKU的所有可能值。如果您首先在服务器端设置一个视图，该视图以这种方式显式地对数据进行排序，那么您可以使用分块。你知道吗

网友

2楼 · 编辑于 2024-06-26 01:53:07

如果你想使用timeseries，我认为使用块不是一个正确的方法。你应该使用groupby，然后应用你喜欢的分析。在熊猫/达斯克基本上是一样的。假设您只想知道每个sku的商店数量

import dask.dataframe as dd
import pandas as pd

df = dd.read_csv("file.csv") 
out = df.groupby('SKU')["STORE"].nunique().compute()

相关问题更多 >

编程相关推荐

热门问题

热门文章