在pysp中使用RDD从字典创建数据帧

2024-09-27 23:17:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一本字典,名字是“Word_Count”,key是代表单词,值代表文本中的数字单词。我的目标是把它转换成一个包含两列单词和count的数据帧

items = list(Word_Counts.items())[:5]
items

输出:

^{pr2}$

当我使用sc.并行化为了建立一个RDD,我意识到当我创建一个表时,它会删除所有的值并且只保留键,它只包含from键。请告诉我如何使用RDD从字典建立数据帧

rdd1 = sc.parallelize(Word_Counts)
Df_Hur = spark.read.json(rdd1)
rdd1.take(5)

输出:

['Akdeniz’in', 'en', 'büyük', 'deniz', 'festivali:']

Df_Hur.show(5)

输出:

+---------------+ 
|_corrupt_record|
+---------------+ 
| Akdeniz’in|
| en| 
| büyük| 
| deniz| 
| festivali:| 
+---------------+

我的目标是:

   word       count
  Akdeniz’in    14
  en            13287
  büyük         3168
  deniz         1276
  festivali:    6

Tags: 数据in目标字典countitems代表单词
1条回答
网友
1楼 · 发布于 2024-09-27 23:17:46

您可以将word_count.items()直接发送给parallelize

df_hur = sc.parallelize(word_count.items()).toDF(['word', 'count'])

df_hur.show()

>>>
+     +  -+
|      word|count|
+     +  -+
|Akdeniz’in|   14|
|        en|13287|
|     büyük| 3168|
|     deniz| 1276|
|festivali:|    6|
+     +  -+

相关问题 更多 >

    热门问题