Python中字符串拼写错误时OneHotEncoder的替代方法 - 问答 - Python中文网

Python中字符串拼写错误时OneHotEncoder的替代方法

2024-07-02 11:06:20 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

在我的数据集中，我有一个代表国家名称的分类特征，但有时有些特征拼错了。你知道吗

例如，“法国”也可以写成“法郎”和“法郎”。你知道吗

你知道在python中是否有任何现有的算法可以将字符串转换成与单词相似的数值吗。所以对于我上面的例子，这个值会很相似吗？你知道吗

Tags：数据字符串名称算法分类代表特征国家

1条回答

网友

1楼 · 发布于 2024-07-02 11:06:20

恐怕我们没有现成的工具，但您可以调整NLTK-http://www.nltk.org/，并使其根据您的要求工作。你知道吗

为了你的案子

import nltk 
print(nltk.edit_distance("France","Francz"))

代码打印1，因此您可以编写一个函数，其中包含世界上所有国家的列表，然后对拼写错误的国家和现有名称运行edit\u distance方法，并将距离分数最小的国家名称作为正确的国家名称。你知道吗

请在此处查看更多示例：
https://datascience.stackexchange.com/questions/12575/similarity-between-two-words

相关问题更多 >

编程相关推荐

热门问题

热门文章