text_file = sc.textFile("/Users/xxx/Desktop/BigData/assign1/abc")
count1 = text_file.flatMap(lambda line: line.split(" "))
.map(lambda x : (x, 1)) \
.reduceByKey(lambda a, b: a + b)
我只是举个例子。我有一个包含156215个条目的庞大数据集
['This'、'is'、'my'、'room'] 这将返回我的单字计数。在
如果我需要一次数两个词。在
['这是','是我的','我的房间']
我尝试过所有方法,但它返回TypeError:PipelinedRDD问题。在
注意,这仍然是按行操作的;所以如果您的文件看起来像
则
^{pr2}$test what
不计算。在相关问题 更多 >
编程相关推荐