迭代nltk字典

2024-10-04 11:25:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我想知道是否可以重复使用一些可用的nltk字典,即:西班牙语词典。我想找一些符合要求的词。在

假设我得到了这个列表["tv", "tb", "tp", "dv", "db", "dp"],算法会给出类似["tapa", "tubo", "tuba", ...]的单词。如你所见,如果你去掉这些单词中的元音,它们将出现在初始列表中:

  • tapa=>;tp
  • tubo=大于等于tb
  • 大号=>;tb

不管怎样,我只想知道是否有可能在nltk字典上迭代西班牙语单词,以及如何迭代,这几乎就是


Tags: gt列表db字典tv单词tb词典
1条回答
网友
1楼 · 发布于 2024-10-04 11:25:41

nltk有很多西班牙语资源,但我不知道有没有字典。所以我把单词表的选择权留给你,从那里开始。在

一般来说,nltk用通常的方法words()将单词表表示为语料库阅读器。下面是如何在英文单词表中找到与模板匹配的单词:

templates = set(["tv", "tb", "tp", "dv", "db", "dp"])
for w in nltk.corpus.words.words("en"):
    <remove vowels and check if it is in `templates`>

我注意到这里有一个西班牙语的stopwords列表;下面是对它进行迭代的方法:

^{pr2}$

你也可以从西班牙语语料库中创建自己的“单词表”。我使用了吓人的引号,因为最好的数据结构是set。在python中,迭代setdict将得到它的键:

^{3}$

相关问题 更多 >