我正在处理一个列,该列对同一事物有多个拼写变体。我需要识别相似的字符串条目,并使用具有最高计数的相似字符串对它们进行规范化。你知道吗
这是一个包含大量名词的超大数据集,因此我无法创建包含正确词条的词典。识别正确条目的最佳方法是使用count。你知道吗
这是一个变化的例子。我们知道“麦当劳”是正确的入口,因为高计数。现在,我需要选择不正确的条目并更正它们。你知道吗
data = {'Store':['Mcdonalds', 'mcdonald', 'Mcdonaldss', 'Mcdonald'], 'Count':[20000, 17, 2, 40]}
一种可能的解决方案是difflib
Correct = 'Mcdonalds'
Incorrect = 'Mcdonaldss'
seq = difflib.SequenceMatcher(None, Correct, Incorrect)
d = seq.ratio()*100
print(d)
>94.73
你们认为这是最好的办法吗?如果是这样的话,我怎样才能把它应用到整列并更正不正确的条目呢?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐