Dask：多处理在Mac上工作，但在Windows上不工作

import pandas as pd import dask.dataframe as ddf import multiprocessing daskdf = ddf.from_pandas(mypandasdataframe, npartitions=4*multiprocessing.cpu_count()) def removecw(df): for word in mylist: df['A'] = df['A'].apply(lambda x: re.sub(r'\b{}$'.format(re.escape(word)), '', x)) return df daskdf = daskdf.map_partitions(removecw, meta = daskdf) daskdf = daskdf.compute(scheduler='processes') daskdf.to_csv('outputfilename')

1条回答

网友

1楼 · 发布于 2024-09-27 07:33:58

Windows处理多进程的方式与Mac和Linux稍有不同。你知道吗

我猜你的问题是由于试图传递一个很难序列化的函数。可能它隐式地依赖于未传入的变量，或者它是动态定义的。以下是一些你可以尝试的东西，但不能保证：

在单独的模块中定义函数
确保函数不隐式依赖于任何全局变量。如果您需要一些额外的变量，比如mylist，那么显式地传递它（方法apply可以接受额外的关键字参数）
在本地计算机上尝试分布式调度程序。https://docs.dask.org/en/latest/scheduling.html#dask-distributed-local

相关问题更多 >

编程相关推荐

热门问题

热门文章