我正在尝试处理一个3GB文件。那个文件的结构是这样的,它包含多行,一组n行可以按一个特定的键分组,每个键出现在特定的位置
下面是示例文件结构
abc123Key1asdas
abc124Key1asdas
abc126Key1asasd
abcw23Key2asdad
asdfsaKey2asdsa
....
.....
.....
abcasdKeynasdas
asfssdfKeynasda
asdaasdKeynsdfa
我要实现的结构是
^{pr2}$我正试着做这样的事
lines = sc.textFile(fileName)
counts = lines.flatMap(lambda line: line.split('\n')).map(lambda line: (line[10:21],line))
output = counts.combineByKey().collect()
有人能帮我实现我的目标吗?在
只需将combineByKey()替换为groupByKey(),就可以了。在
示例代码
更多信息:http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=groupbykey#pyspark.RDD.groupByKey
相关问题 更多 >
编程相关推荐