如何使用Python查找RDD上的bigram频率

2024-09-27 17:46:32 发布

您现在位置:Python中文网/ 问答频道 /正文

text_file = sc.textFile("/Users/xxx/Desktop/BigData/assign1/abc")
count1 = text_file.flatMap(lambda line: line.split(" ")) 
             .map(lambda x : (x,  1)) \
         .reduceByKey(lambda a, b: a + b)

我只是举个例子。我有一个包含156215个条目的庞大数据集

['This'、'is'、'my'、'room'] 这将返回我的单字计数。在

如果我需要一次数两个词。在

['这是','是我的','我的房间']

我尝试过所有方法,但它返回TypeError:PipelinedRDD问题。在


Tags: lambdatextlineusersfilexxxsplitsc

热门问题