我有一本字典,名字是“Word_Count”,key是代表单词,值代表文本中的数字单词。我的目标是把它转换成一个包含两列单词和count的数据帧
items = list(Word_Counts.items())[:5]
items
输出:
^{pr2}$当我使用sc.并行化为了建立一个RDD,我意识到当我创建一个表时,它会删除所有的值并且只保留键,它只包含from键。请告诉我如何使用RDD从字典建立数据帧
rdd1 = sc.parallelize(Word_Counts)
Df_Hur = spark.read.json(rdd1)
rdd1.take(5)
输出:
['Akdeniz’in', 'en', 'büyük', 'deniz', 'festivali:']
Df_Hur.show(5)
输出:
+---------------+
|_corrupt_record|
+---------------+
| Akdeniz’in|
| en|
| büyük|
| deniz|
| festivali:|
+---------------+
我的目标是:
word count
Akdeniz’in 14
en 13287
büyük 3168
deniz 1276
festivali: 6
您可以将
word_count.items()
直接发送给parallelize
:相关问题 更多 >
编程相关推荐