我需要在列中识别相似的字符串并对它们进行规范化

2024-06-30 16:16:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理一个列,该列对同一事物有多个拼写变体。我需要识别相似的字符串条目,并使用具有最高计数的相似字符串对它们进行规范化。你知道吗

这是一个包含大量名词的超大数据集,因此我无法创建包含正确词条的词典。识别正确条目的最佳方法是使用count。你知道吗

这是一个变化的例子。我们知道“麦当劳”是正确的入口,因为高计数。现在,我需要选择不正确的条目并更正它们。你知道吗

data = {'Store':['Mcdonalds', 'mcdonald', 'Mcdonaldss', 'Mcdonald'], 'Count':[20000, 17, 2, 40]}

一种可能的解决方案是difflib

Correct = 'Mcdonalds'
Incorrect = 'Mcdonaldss'
seq = difflib.SequenceMatcher(None, Correct, Incorrect)
d = seq.ratio()*100
print(d)
>94.73

你们认为这是最好的办法吗?如果是这样的话,我怎样才能把它应用到整列并更正不正确的条目呢?你知道吗


Tags: 数据字符串条目变体规范化seq事物计数