在datafram中获取拼写错误单词的词典 - 问答 - Python中文网

在datafram中获取拼写错误单词的词典

2024-06-25 23:15:23 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在研究情绪分析问题。试图使用autocorrect，但这需要大量的计算能力，由于语料库的大小，我无法访问这些能力。所以我想出了一个不同的解决问题的方法，创建一个{key = 'incorrect', value = 'correct'}字典，然后手动更正所有单词。你知道吗

问题是我该如何把那本拼错单词的字典放到字典里。this link和我的问题的解决方案一样吗？（我应该寻找OOV单词而不是拼写错误的单词？）你知道吗

如果没有，请建议一些更好的方法。你知道吗

用于autocorrect的代码：

!pip install autocorrect
from autocorrect import spell 
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]

Tags：方法 key text in for 字典 train 能力

1条回答

网友

1楼 · 发布于 2024-06-25 23:15:23

一个单词你能拼多少遍？只有1个。你知道吗

现在，一个单词你能拼错多少次？我应该说是无限的。你知道吗

这回答了您的问题：

Rather than misspelled words should I look for OOV words?

当然，尤其是如果你的拼写错误不是新词或经常重复的常用拼写错误。你知道吗

现在，如果这些特性拼写错误，您如何获得它们？一种方法是使用“Levenstein距离”（或最小编辑距离），将拼写错误的单词与单词词典进行比较，检查它与任何单词之间的距离是否很小。这可能就是自动更正包背后的原因。您可以在这个link中查看更多关于它的信息。你知道吗

所以，简言之，你可能不得不放弃OOV单词或者在上面使用一些计算资源，因为计算机不在上面做一些计算就不能“猜测”。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章