在pyspark中,考虑到两个rdd,比如:
rrd1 = [('my name',5),('name is',4)]
以及
rdd2 = [('my',6),('name',10),('is',5)]
其中rdd1是二元数和计数的元组,rdd2是相应的单元数和计数的元组, 我想要一个由三个元素组成的元组的RDD,比如:
RDD = [ (('my name',5),('my',6),('name',10)) , (('name is',4), ('name',10),('is',5)) ]
我尝试了rdd2.union(rdd1).reduceByKey(lambda x,y : x+y)
,但在这个例子中这不是正确的方法,因为键不同,但在某种意义上它们是相关的。在
您可以这样做;拆分bigramrdd以生成一个与
rdd2
连接的键,然后按bigram分组以收集属于同一个bigram的元素:相关问题 更多 >
编程相关推荐