Python电影组进程GSDMM如何获取每个主题下的单词列表？

mgp = MovieGroupProcess(K=20, alpha=0.01, beta=0.1, n_iters=30) vocab = set(x for doc in docs for x in doc) n_terms = len(vocab) n_docs = len(docs) # Fit the model on the data given the chosen seeds y = mgp.fit(docs, n_terms)

2条回答

网友

1楼 · 编辑于 2024-06-28 11:40:34

如果您使用GSDMM，“Top”单词就不存在，因为该算法是如何工作的

你唯一的选择就是列出最常用的单词，当然其中也会包括一些常用的单词

网友

2楼 · 编辑于 2024-06-28 11:40:34

下面是一个可以在python中创建的函数，用于获取最常用的单词：

def generatedfwordfreq(topicnumber, numwords):
    topic = sorted(mgp.cluster_word_distribution[topicnumber].items(), 
key=lambda k: k[1], reverse=True)[:numwords]
    dfm = pd.DataFrame(topic)
    dfm = dfm.rename(columns={0: 'Word', 1: 'Freq'})
    return dfm

上面返回一个数据帧，其中包含最前面的“numwords”单词的单词和频率；numwords是最常用字数的整数。请注意，mgp将主题编号存储为整数（1,2,3…），因此可以通过调用mgp.cluster\u word\u distribution[topicnumber]将其用作“topicnumber”来引用特定主题

相关问题更多 >

编程相关推荐

热门问题

热门文章