如何减少火花流中的两个关键点?

2024-10-06 14:28:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下类型的数据来自卡夫卡消费者

(u'0:l1', ({u'partyField': u'0:n5m, u'attr1': u'ok'})
(u'0:l1', ({u'partyField': u'0:n8m, u'attr1': u'ok'})
(u'0:l1', ({u'partyField': u'0:n8m, u'attr1': u'ok'})

我想对此执行reduceByKey操作。目前,我得到以下输出

(u'0:l1', {u'partyField': u'0:n5m, u'attr1': u'ok'}, 
{u'partyField': u'0:n8m, u'attr1': u'ok'}, 
{u'partyField': u'0:n8m, u'attr1': u'ok'})

但是我想有一些键组合,因为我想用一个参数来分组,这个参数是值的一部分,即partyField

我希望得到一个与此类似的分组,即按键分组,也按partyField

(u'0:l1', ({u'partyField': u'0:n5m, u'attr1': u'ok'})

(u'0:l1', {u'partyField': u'0:n8m, u'attr1': u'ok'},
u'0:l1', {u'partyField': u'0:n8m, u'attr1': u'ok'})

如何在spark中执行此操作


Tags: 数据l1类型参数消费者ok按键spark
1条回答
网友
1楼 · 发布于 2024-10-06 14:28:37

基于每个记录的partyField形成键,应用reduceByKey并从reduced_rdd中提取值

例如:

>>> in_rdd = sc.parallelize(a)
[('0:l1', {'partyField': '0:n5m', 'attr1': 'ok'}),
 ('0:l1', {'partyField': '0:n8m', 'attr1': 'ok'}),
 ('0:l1', {'partyField': '0:n8m', 'attr1': 'ok'})]
>>> key_rdd = in_rdd.map(lambda x : (x[1]['partyField'],x))
>>> reduced_rdd = key_rdd.reduceByKey(lambda acc, curr: acc + curr)
>>> final_rdd = reduced_rdd.map(lambda x: x[1])
>>> final_rdd.collect()
[('0:l1',{'partyField': '0:n8m', 'attr1': 'ok'}, 
  '0:l1',{'partyField': '0:n8m', 'attr1': 'ok'}),

 ('0:l1',{'partyField': '0:n5m', 'attr1': 'ok'})]

希望这有帮助

相关问题 更多 >