词语.word()来自nltk语料库,似乎包含奇怪的非有效词汇

2024-07-02 11:17:11 发布

您现在位置:Python中文网/ 问答频道 /正文

这个代码循环遍历单词。单词(),然后将单词推入数组。然后,它使用同一个库检查数组中的每个单词,看它是否是一个真正的单词,并且不知何故,许多单词都是完全不真实的奇怪单词,比如“adighe”。这是怎么回事?在

import nltk
from nltk.corpus import words

test_array = []
for i in words.words():
    i = i.lower()
    test_array.append(i)

for i in test_array:
    if i not in words.words():
        print(i)

Tags: 代码infromtestimportforcorpus数组
1条回答
网友
1楼 · 发布于 2024-07-02 11:17:11

我不认为这里有什么神秘的事情。我发现的第一个这样的例子是“Aani”,“埃及神透特的狗头猿”。因为它是一个专有名词,“Aani”在单词表中,而“Aani”不是

根据dictionary.com网站“Adighe”是“Adygei”的另一种拼写,是另一个专有名词,意思是俄罗斯的一个地区。既然它也是一种语言,我想你可能会认为“adighe”也应该被允许。这个特殊的单词表会认为它不应该

相关问题 更多 >