我正在研究情绪分析问题。试图使用autocorrect
,但这需要大量的计算能力,由于语料库的大小,我无法访问这些能力。所以我想出了一个不同的解决问题的方法,创建一个{key = 'incorrect', value = 'correct'}
字典,然后手动更正所有单词。你知道吗
问题是我该如何把那本拼错单词的字典放到字典里。this link和我的问题的解决方案一样吗?(我应该寻找OOV单词而不是拼写错误的单词?)你知道吗
如果没有,请建议一些更好的方法。你知道吗
用于autocorrect
的代码:
!pip install autocorrect
from autocorrect import spell
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]
一个单词你能拼多少遍?只有1个。你知道吗
现在,一个单词你能拼错多少次?我应该说是无限的。你知道吗
这回答了您的问题:
现在,如果这些特性拼写错误,您如何获得它们?一种方法是使用“Levenstein距离”(或最小编辑距离),将拼写错误的单词与单词词典进行比较,检查它与任何单词之间的距离是否很小。这可能就是自动更正包背后的原因。您可以在这个link中查看更多关于它的信息。你知道吗
所以,简言之,你可能不得不放弃OOV单词或者在上面使用一些计算资源,因为计算机不在上面做一些计算就不能“猜测”。你知道吗
相关问题 更多 >
编程相关推荐