如何使用Python查找RDD上的bigram频率 - 问答 - Python中文网

如何使用Python查找RDD上的bigram频率

2024-09-27 17:46:32 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

text_file = sc.textFile("/Users/xxx/Desktop/BigData/assign1/abc")
count1 = text_file.flatMap(lambda line: line.split(" ")) 
             .map(lambda x : (x,  1)) \
         .reduceByKey(lambda a, b: a + b)

我只是举个例子。我有一个包含156215个条目的庞大数据集

['This'、'is'、'my'、'room'] 这将返回我的单字计数。在

如果我需要一次数两个词。在

['这是'，'是我的'，'我的房间']

我尝试过所有方法，但它返回TypeError:PipelinedRDD问题。在

Tags： lambda text line users file xxx split sc

1条回答

网友

1楼 · 发布于 2024-09-27 17:46:32

注意，这仍然是按行操作的；所以如果您的文件看起来像

this is a test
what happens next

则test what不计算。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章