在我当前的流程中,我需要将dask.bag
拆分为两个独立的df(因为特性需要改变形状的操作)。df_X
表示特征,df_y
表示目标分类。在
然后我调用dd.map_partitions
对所有分区并行应用分类算法,但要实现这一点,我需要在dask上合并df_X
和{
下面是一些伪代码:
labels = mybag.pluck('label').to_dataframe()
features = mybag.pluck('features').map_partitions(some_func).to_dataframe()
features.merge(labels, ...).map_partitions(fit)
def fit(df):
labels = df['labels']
features = df['features']
我注意到dask.bag.map_partitons
接受多个包,并允许用户在来自多个包的分区上应用一个函数,将对齐的责任交给用户。在
我想知道在dask.dataframe
中是否可以实现和/或希望得到类似的结果。在
顺便说一句,在dask.bag.to_dataframe
中使用一个可调用的参数来替换/扩充dask.bag.core.to_dataframe
助手函数,这对我很有价值。在
目前没有回答
相关问题 更多 >
编程相关推荐