我需要在列中识别相似的字符串并对它们进行规范化

2024-06-30 16:16:56 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在处理一个列，该列对同一事物有多个拼写变体。我需要识别相似的字符串条目，并使用具有最高计数的相似字符串对它们进行规范化。你知道吗

这是一个包含大量名词的超大数据集，因此我无法创建包含正确词条的词典。识别正确条目的最佳方法是使用count。你知道吗

这是一个变化的例子。我们知道“麦当劳”是正确的入口，因为高计数。现在，我需要选择不正确的条目并更正它们。你知道吗

data = {'Store':['Mcdonalds', 'mcdonald', 'Mcdonaldss', 'Mcdonald'], 'Count':[20000, 17, 2, 40]}

一种可能的解决方案是difflib

Correct = 'Mcdonalds'
Incorrect = 'Mcdonaldss'
seq = difflib.SequenceMatcher(None, Correct, Incorrect)
d = seq.ratio()*100
print(d)
>94.73

你们认为这是最好的办法吗？如果是这样的话，我怎样才能把它应用到整列并更正不正确的条目呢？你知道吗

Tags：数据字符串条目变体规范化 seq 事物计数

0条回答

目前没有回答