我有一个单词列表,这些单词是我的用户在清理后输入的(为了纠正拼写错误)我有下面的列表,每一行代表一个字符串以及这个字符串被输入的次数:
Pepsi 500
Coke 358
Dr. pepper 254
Sprite 204
Coca cola 159
7 up 140
Mountain dew 137
Diet coke 58
Mtn. dew 50
现在我想有一个脚本,将通过这个列表和分组相似的词。 例如,将可口可乐、可口可乐和健怡可乐合并为一组(因为它们是可口可乐的同义词)。在
我看到在NLTK WordNet中有一些相似函数,我可以使用它们吗?还是有更好的方法来解决这个问题?在
目前没有回答
相关问题 更多 >
编程相关推荐