单词cloud不能正确显示单词的频率

2024-09-24 22:24:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经在wordcloud中绘制了文本数据。 这是我的数据帧

vocab   sumCI
aid      3
tinnitu  3
sudden   3
squamou  3
saphen   3
problem  3
prednison 3
pain    2
dysuria 3
cancer  2

然后我把它转换成这样的字符串(实际上,我记录了每个单词在数据帧中出现的次数,然后输入到函数中):

^{pr2}$

然后我用这段代码来可视化文本数据:

def generate_wordcloud(text): # optionally add: stopwords=STOPWORDS and change the arg below
    wordcloud = WordCloud(
                          background_color="white",
                          width=1200, height=1000,
                          relative_scaling = 1.0,
                          collocations=False
                          ).generate(text)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()

cidf=cidf.loc[cidf.index.repeat(cidf['sumCI'])].reset_index(drop=True)
strCI = ' '.join(cidf['vocab'])
print(strCI)
generate_wordcloud(strCI)

结果是这样的:

如你所见,大多数单词都会重复2到3次,但它们在单词cloud中的大小并没有显示这一点。即使是同样大小的单词,大小也有很大的差别! enter image description here

例如:

例如,看看这个数据框中的“耳鸣”和“排尿困难”,它们的频率都是3,耳鸣相当大,但排尿困难,你会发现它很难,因为它很小。在

谢谢:)


Tags: 数据text文本index绘制plt单词generate
1条回答
网友
1楼 · 发布于 2024-09-24 22:24:25

好吧,我是通过搜索找到的。最后我使用了generate_from_frequencies(text),而不是只使用generate。 但在频率相同的情况下,它们的大小并不相同。在

如果你看一下他们提到的关于排名或顺序的文件(这是我真的不能理解的,他们最好把它作为一种选择。例如,如果算法看到相同的频率,那么方法1应该是什么。基于订单2。什么都不做,而且大小相同)。在

根据我的研究和输出,当它看到相同的频率,并且基于它的空间,它可能会改变大小,这是不好的。在

我的话只是基于我的实验和阅读文件。在

相关问题 更多 >