使用字符串匹配算法的dask-map_分区时遇到的问题

2024-09-21 03:00:34 发布

您现在位置：Python中文网/ 问答频道 /正文

1968

网友

男 | 程序猿一只，喜欢编程写python代码。

我在应用一个并行dask insfrastructure的文本搜索算法时遇到了一些问题。在

我正在尝试找到一个series对象中40000个stirngs与一个4000个字符串列表的最佳匹配。在

我可以用熊猫。申请但是时间很贵，所以我决定尝试用dask中的map_分区进行并行化。在

我使用这个文本搜索库和python Levenshteinhttps://marcobonzanini.com/2015/02/25/fuzzy-string-matching-in-python

正如您所看到的，在这个来自pandas数据集的示例中，它可以正常工作：

process.extractOne(df['endereco2'][1],choices=choices,scorer=fuzz.token_set_ratio,                                                            
score_cutoff=60)

Output: ('R ALVARO DUARTE DE ALMEIDA PROFESSOR', 85)

但它在使用dask时不起作用：

^{pr2}$

发生什么事了？在

Obs：我用池.应用从multplocessing lib，但我还是想知道Dask发生了什么

Tags：对象字符串文本 map 列表时间 dask choices

1条回答

网友

1楼 · 发布于 2024-09-21 03:00:34

在进行MCVE时，我意识到这是一个幼稚的语法问题：我不能在dask数据帧上使用map_分区，而不指定im使用的列，即使只有一列。所以我应该使用sd[0].map_分区而不是sd.map_分区在

使用字符串匹配算法的dask-map_分区时遇到的问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用字符串匹配算法的dask-map_分区时遇到的问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >