gensim语料库中的顶级术语

2024-06-13 23:01:06 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用python包Gensim进行聚类，我首先从给定文本的标记化和词缀化创建了一个字典，然后使用以下代码使用字典创建的语料库：

 mydict = corpora.Dictionary(LemWords)
 corpus = [mydict.doc2bow(text) for text in LemWords]

我知道语料库会包含单词的id以及它们在每个文档中的出现频率。我想知道一个给定单词在整个语料库中的频率，以便在语料库中找到最热门的词汇。我想知道是否有任何方法可以在整个语料库中找到该术语的返回频率

Tags：代码 text 标记文本 dictionary 字典聚类单词

1条回答

网友

1楼 · 发布于 2024-06-13 23:01:06

你可以试试这个：

import itertools
from collections import defaultdict

total_count = defaultdict(int)
for word_id, word_count in itertools.chain.from_iterable(corpus):
    total_count[word_id] += word_count

# Top ten words
sorted(total_count.items(), key=lambda x: x[1], reverse=True)[:10]

gensim语料库中的顶级术语

相关问题更多 >

编程相关推荐

热门问题

热门文章

gensim语料库中的顶级术语

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >