我正在使用pyspark df,如下所示:
+-------------+-----+-----+------+
| words| A| B| C|
+-------------+-----+-----+------+
| write| 1.0|2.083| 2.083|
| trade|0.485|4.148| 2.012|
| elite|0.333|5.969| 1.988|
| mark| 0.5|3.897| 1.949|
| quot|0.439|4.227| 1.856|
| prostate| 0.25|7.416| 1.854|
| maya| 0.25|7.416| 1.854|
| lafayette|0.222|8.109| 1.8|
| detail| 1.0|1.789| 1.789|
| punta| 0.2|8.802| 1.76|
|scorbutically| 0.2|8.802| 1.76|
df.dtypes
[('words', 'string'),
('A', 'double'),
('B', 'double'),
('C', 'double')]
我想根据colC
的值为words
列创建一个词云,也就是说,C列中值越高的词看起来越大,这反映了它们的使用频率
有可能吗
有什么建议吗
您可以尝试:
相关问题 更多 >
编程相关推荐