在datafram中获取拼写错误单词的词典

2024-06-25 23:15:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究情绪分析问题。试图使用autocorrect,但这需要大量的计算能力,由于语料库的大小,我无法访问这些能力。所以我想出了一个不同的解决问题的方法,创建一个{key = 'incorrect', value = 'correct'}字典,然后手动更正所有单词。你知道吗

问题是我该如何把那本拼错单词的字典放到字典里。this link和我的问题的解决方案一样吗?(我应该寻找OOV单词而不是拼写错误的单词?)你知道吗

如果没有,请建议一些更好的方法。你知道吗

用于autocorrect的代码:

!pip install autocorrect
from autocorrect import spell 
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]

Tags: 方法keytextinfor字典train能力
1条回答
网友
1楼 · 发布于 2024-06-25 23:15:23

一个单词你能拼多少遍?只有1个。你知道吗

现在,一个单词你能拼错多少次?我应该说是无限的。你知道吗

这回答了您的问题:

Rather than misspelled words should I look for OOV words?

  • 当然,尤其是如果你的拼写错误不是新词或经常重复的常用拼写错误。你知道吗

现在,如果这些特性拼写错误,您如何获得它们?一种方法是使用“Levenstein距离”(或最小编辑距离),将拼写错误的单词与单词词典进行比较,检查它与任何单词之间的距离是否很小。这可能就是自动更正包背后的原因。您可以在这个link中查看更多关于它的信息。你知道吗

所以,简言之,你可能不得不放弃OOV单词或者在上面使用一些计算资源,因为计算机不在上面做一些计算就不能“猜测”。你知道吗

相关问题 更多 >