使用字符串匹配算法的dask-map_分区时遇到的问题

2024-09-21 03:00:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我在应用一个并行dask insfrastructure的文本搜索算法时遇到了一些问题。在

我正在尝试找到一个series对象中40000个stirngs与一个4000个字符串列表的最佳匹配。在

我可以用熊猫。申请但是时间很贵,所以我决定尝试用dask中的map_分区进行并行化。在

我使用这个文本搜索库和python Levenshteinhttps://marcobonzanini.com/2015/02/25/fuzzy-string-matching-in-python

正如您所看到的,在这个来自pandas数据集的示例中,它可以正常工作:

process.extractOne(df['endereco2'][1],choices=choices,scorer=fuzz.token_set_ratio,                                                            
score_cutoff=60)

Output: ('R ALVARO DUARTE DE ALMEIDA PROFESSOR', 85)

但它在使用dask时不起作用:

^{pr2}$

发生什么事了?在

Obs:我用池.应用从multplocessing lib,但我还是想知道Dask发生了什么


Tags: 对象字符串文本map列表时间daskchoices
1条回答
网友
1楼 · 发布于 2024-09-21 03:00:34

在进行MCVE时,我意识到这是一个幼稚的语法问题:我不能在dask数据帧上使用map_分区,而不指定im使用的列,即使只有一列。所以我应该使用sd[0].map_分区而不是sd.map_分区在

相关问题 更多 >

    热门问题