从文本中删除停止词，同时不删除重复的常规词

from nltk.corpus import gutenberg carroll = nltk.Text(nltk.corpus.gutenberg.words('carroll-alice.txt')) carroll_list = FreqDist(carroll) stops = set(stopwords.words("english")) filtered_words = [word for word in carroll_list if word not in stops]

[('right', 1), ('certain', 1), ('delighted', 1), ('adding', 1), ('work', 1), ('young', 1), ('Up', 1), ('soon', 1), ('use', 1), ('submitted', 1), ('remedies', 1), ('tis', 1), ('uncomfortable', 1)....]

1条回答

网友

1楼 · 发布于 2024-07-07 08:58:17

正如您现在所写的，list已经是一个包含单词作为键和出现计数作为值的分布：

>>> list
FreqDist({u',': 1993, u"'": 1731, u'the': 1527, u'and': 802, u'.': 764, u'to': 725, u'a': 615, u'I': 543, u'it': 527, u'she': 509, ...})

然后你在键上迭代意味着每个单词只存在一次。我相信你真的想创造这样的filtered_words：

filtered_words = [word for word in carroll if word not in stops]

另外，应该尽量避免使用与Python内置函数匹配的变量名（list是Python内置函数）。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章