我在应用一个并行dask insfrastructure的文本搜索算法时遇到了一些问题。在
我正在尝试找到一个series对象中40000个stirngs与一个4000个字符串列表的最佳匹配。在
我可以用熊猫。申请但是时间很贵,所以我决定尝试用dask中的map_分区进行并行化。在
我使用这个文本搜索库和python Levenshteinhttps://marcobonzanini.com/2015/02/25/fuzzy-string-matching-in-python
正如您所看到的,在这个来自pandas数据集的示例中,它可以正常工作:
process.extractOne(df['endereco2'][1],choices=choices,scorer=fuzz.token_set_ratio,
score_cutoff=60)
Output: ('R ALVARO DUARTE DE ALMEIDA PROFESSOR', 85)
但它在使用dask时不起作用:
^{pr2}$发生什么事了?在
Obs:我用池.应用从multplocessing lib,但我还是想知道Dask发生了什么
在进行MCVE时,我意识到这是一个幼稚的语法问题:我不能在dask数据帧上使用map_分区,而不指定im使用的列,即使只有一列。所以我应该使用sd[0].map_分区而不是sd.map_分区在
相关问题 更多 >
编程相关推荐