Dask数据帧映射分区与多个(对齐)DDs

2024-10-06 11:56:47 发布

您现在位置:Python中文网/ 问答频道 /正文

在我当前的流程中,我需要将dask.bag拆分为两个独立的df(因为特性需要改变形状的操作)。df_X表示特征,df_y表示目标分类。在

然后我调用dd.map_partitions对所有分区并行应用分类算法,但要实现这一点,我需要在dask上合并df_X和{},然后再将它们拆分回{}。在

下面是一些伪代码:

labels = mybag.pluck('label').to_dataframe()
features = mybag.pluck('features').map_partitions(some_func).to_dataframe()

features.merge(labels, ...).map_partitions(fit)

def fit(df):
    labels = df['labels']
    features = df['features']

我注意到dask.bag.map_partitons接受多个包,并允许用户在来自多个包的分区上应用一个函数,将对齐的责任交给用户。在

我想知道在dask.dataframe中是否可以实现和/或希望得到类似的结果。在

顺便说一句,在dask.bag.to_dataframe中使用一个可调用的参数来替换/扩充dask.bag.core.to_dataframe助手函数,这对我很有价值。在


Tags: to用户mapdataframedflabels分类dask