gensim语料库中的顶级术语

2024-06-13 23:01:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用python包Gensim进行聚类,我首先从给定文本的标记化和词缀化创建了一个字典,然后使用以下代码使用字典创建的语料库:

 mydict = corpora.Dictionary(LemWords)
 corpus = [mydict.doc2bow(text) for text in LemWords]

我知道语料库会包含单词的id以及它们在每个文档中的出现频率。我想知道一个给定单词在整个语料库中的频率,以便在语料库中找到最热门的词汇。我想知道是否有任何方法可以在整个语料库中找到该术语的返回频率


Tags: 代码text标记文本dictionary字典聚类单词
1条回答
网友
1楼 · 发布于 2024-06-13 23:01:06

你可以试试这个:

import itertools
from collections import defaultdict

total_count = defaultdict(int)
for word_id, word_count in itertools.chain.from_iterable(corpus):
    total_count[word_id] += word_count

# Top ten words
sorted(total_count.items(), key=lambda x: x[1], reverse=True)[:10]

相关问题 更多 >