Python中字符串拼写错误时OneHotEncoder的替代方法

2024-07-02 11:06:20 发布

您现在位置:Python中文网/ 问答频道 /正文

在我的数据集中,我有一个代表国家名称的分类特征,但有时有些特征拼错了。你知道吗

例如,“法国”也可以写成“法郎”和“法郎”。你知道吗

你知道在python中是否有任何现有的算法可以将字符串转换成与单词相似的数值吗。所以对于我上面的例子,这个值会很相似吗?你知道吗


Tags: 数据字符串名称算法分类代表特征国家
1条回答
网友
1楼 · 发布于 2024-07-02 11:06:20

恐怕我们没有现成的工具,但您可以调整NLTK-http://www.nltk.org/,并使其根据您的要求工作。你知道吗

为了你的案子

import nltk 
print(nltk.edit_distance("France","Francz"))

代码打印1,因此您可以编写一个函数,其中包含世界上所有国家的列表,然后对拼写错误的国家和现有名称运行edit\u distance方法,并将距离分数最小的国家名称作为正确的国家名称。你知道吗

请在此处查看更多示例:
https://datascience.stackexchange.com/questions/12575/similarity-between-two-words

相关问题 更多 >