2024-07-02 11:06:20 发布
网友
在我的数据集中,我有一个代表国家名称的分类特征,但有时有些特征拼错了。你知道吗
例如,“法国”也可以写成“法郎”和“法郎”。你知道吗
你知道在python中是否有任何现有的算法可以将字符串转换成与单词相似的数值吗。所以对于我上面的例子,这个值会很相似吗?你知道吗
恐怕我们没有现成的工具,但您可以调整NLTK-http://www.nltk.org/,并使其根据您的要求工作。你知道吗
为了你的案子
import nltk print(nltk.edit_distance("France","Francz"))
代码打印1,因此您可以编写一个函数,其中包含世界上所有国家的列表,然后对拼写错误的国家和现有名称运行edit\u distance方法,并将距离分数最小的国家名称作为正确的国家名称。你知道吗
请在此处查看更多示例:https://datascience.stackexchange.com/questions/12575/similarity-between-two-words
恐怕我们没有现成的工具,但您可以调整NLTK-http://www.nltk.org/,并使其根据您的要求工作。你知道吗
为了你的案子
代码打印1,因此您可以编写一个函数,其中包含世界上所有国家的列表,然后对拼写错误的国家和现有名称运行edit\u distance方法,并将距离分数最小的国家名称作为正确的国家名称。你知道吗
请在此处查看更多示例:
https://datascience.stackexchange.com/questions/12575/similarity-between-two-words
相关问题 更多 >
编程相关推荐