Flatmapgroups RDD的PySpark等价物

2024-09-29 19:27:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我有如下数据:

+----+----+
|user|item|
+----+----+
|   a|   1|
|   a|   2|
|   a|   3|
|   b|   1|
|   b|   5|
|   b|   4|
|   b|   7|
|   c|  10|
|   c|   2|
+----+----+

我希望经过如下转换后得到数据:

^{pr2}$

它们可能是独立的RDD。对我来说没问题。在

在scala和java中,可以使用dataset以及groupbykey和flatmapgroups的组合来完成,但不幸的是,pyspark中没有dataset或flatmapgroups。在

我在pypsark上尝试了一些flatmap和flatmapvalues转换,但是我无法得到正确的结果。在

如何通过使用pyspark获得预期的结果?在


Tags: 数据javaitemdatasetpysparkrddscalauser
1条回答
网友
1楼 · 发布于 2024-09-29 19:27:10

你能看看我下面的代码吗。我想您可以使用这个代码片段找到解决方案。在

[root@sandbox work]# hadoop dfs -put sample.txt /user/

在示例.txt在

a|1
a|2
a|3
b|1
b|5
b|4
b|7
c|10
c|2 

[root@sandbox work]#pyspark

^{pr2}$

相关问题 更多 >

    热门问题