我已经在wordcloud中绘制了文本数据。 这是我的数据帧
vocab sumCI
aid 3
tinnitu 3
sudden 3
squamou 3
saphen 3
problem 3
prednison 3
pain 2
dysuria 3
cancer 2
然后我把它转换成这样的字符串(实际上,我记录了每个单词在数据帧中出现的次数,然后输入到函数中):
^{pr2}$然后我用这段代码来可视化文本数据:
def generate_wordcloud(text): # optionally add: stopwords=STOPWORDS and change the arg below
wordcloud = WordCloud(
background_color="white",
width=1200, height=1000,
relative_scaling = 1.0,
collocations=False
).generate(text)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
cidf=cidf.loc[cidf.index.repeat(cidf['sumCI'])].reset_index(drop=True)
strCI = ' '.join(cidf['vocab'])
print(strCI)
generate_wordcloud(strCI)
结果是这样的:
如你所见,大多数单词都会重复2到3次,但它们在单词cloud中的大小并没有显示这一点。即使是同样大小的单词,大小也有很大的差别!
例如:
例如,看看这个数据框中的“耳鸣”和“排尿困难”,它们的频率都是3,耳鸣相当大,但排尿困难,你会发现它很难,因为它很小。在
谢谢:)
好吧,我是通过搜索找到的。最后我使用了
generate_from_frequencies(text)
,而不是只使用generate。 但在频率相同的情况下,它们的大小并不相同。在如果你看一下他们提到的关于排名或顺序的文件(这是我真的不能理解的,他们最好把它作为一种选择。例如,如果算法看到相同的频率,那么方法1应该是什么。基于订单2。什么都不做,而且大小相同)。在
根据我的研究和输出,当它看到相同的频率,并且基于它的空间,它可能会改变大小,这是不好的。在
我的话只是基于我的实验和阅读文件。在
相关问题 更多 >
编程相关推荐