Dask数据帧映射分区与多个（对齐）DDs

2024-10-06 11:56:47 发布

您现在位置：Python中文网/ 问答频道 /正文

6122

网友

男 | 程序猿一只，喜欢编程写python代码。

在我当前的流程中，我需要将dask.bag拆分为两个独立的df（因为特性需要改变形状的操作）。df_X表示特征，df_y表示目标分类。在

然后我调用dd.map_partitions对所有分区并行应用分类算法，但要实现这一点，我需要在dask上合并df_X和{}，然后再将它们拆分回{}。在

下面是一些伪代码：

labels = mybag.pluck('label').to_dataframe()
features = mybag.pluck('features').map_partitions(some_func).to_dataframe()

features.merge(labels, ...).map_partitions(fit)

def fit(df):
    labels = df['labels']
    features = df['features']

我注意到dask.bag.map_partitons接受多个包，并允许用户在来自多个包的分区上应用一个函数，将对齐的责任交给用户。在

我想知道在dask.dataframe中是否可以实现和/或希望得到类似的结果。在

顺便说一句，在dask.bag.to_dataframe中使用一个可调用的参数来替换/扩充dask.bag.core.to_dataframe助手函数，这对我很有价值。在

Tags： to 用户 map dataframe df labels 分类 dask

0条回答

目前没有回答

Dask数据帧映射分区与多个（对齐）DDs

相关问题更多 >

编程相关推荐

热门问题

热门文章

Dask数据帧映射分区与多个（对齐）DDs

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >