Flatmapgroups RDD的PySpark等价物

2024-09-29 19:27:10 发布

男 | 程序猿一只，喜欢编程写python代码。

我有如下数据：

+----+----+
|user|item|
+----+----+
|   a|   1|
|   a|   2|
|   a|   3|
|   b|   1|
|   b|   5|
|   b|   4|
|   b|   7|
|   c|  10|
|   c|   2|
+----+----+

我希望经过如下转换后得到数据：

^{pr2}$

它们可能是独立的RDD。对我来说没问题。在

在scala和java中，可以使用dataset以及groupbykey和flatmapgroups的组合来完成，但不幸的是，pyspark中没有dataset或flatmapgroups。在

我在pypsark上尝试了一些flatmap和flatmapvalues转换，但是我无法得到正确的结果。在

如何通过使用pyspark获得预期的结果？在

Tags：数据 java item dataset pyspark rdd scala user

1条回答

网友

1楼 · 发布于 2024-09-29 19:27:10

你能看看我下面的代码吗。我想您可以使用这个代码片段找到解决方案。在

[root@sandbox work]# hadoop dfs -put sample.txt /user/

在示例.txt在

a|1
a|2
a|3
b|1
b|5
b|4
b|7
c|10
c|2

[root@sandbox work]#pyspark

^{pr2}$

Flatmapgroups RDD的PySpark等价物

相关问题更多 >

编程相关推荐

热门问题

热门文章

Flatmapgroups RDD的PySpark等价物

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >