我有如下数据:
+----+----+
|user|item|
+----+----+
| a| 1|
| a| 2|
| a| 3|
| b| 1|
| b| 5|
| b| 4|
| b| 7|
| c| 10|
| c| 2|
+----+----+
我希望经过如下转换后得到数据:
^{pr2}$它们可能是独立的RDD。对我来说没问题。在
在scala和java中,可以使用dataset以及groupbykey和flatmapgroups的组合来完成,但不幸的是,pyspark中没有dataset或flatmapgroups。在
我在pypsark上尝试了一些flatmap和flatmapvalues转换,但是我无法得到正确的结果。在
如何通过使用pyspark获得预期的结果?在
你能看看我下面的代码吗。我想您可以使用这个代码片段找到解决方案。在
在示例.txt在
^{pr2}$相关问题 更多 >
编程相关推荐