我有以下类型的数据来自卡夫卡消费者
(u'0:l1', ({u'partyField': u'0:n5m, u'attr1': u'ok'})
(u'0:l1', ({u'partyField': u'0:n8m, u'attr1': u'ok'})
(u'0:l1', ({u'partyField': u'0:n8m, u'attr1': u'ok'})
我想对此执行reduceByKey
操作。目前,我得到以下输出
(u'0:l1', {u'partyField': u'0:n5m, u'attr1': u'ok'},
{u'partyField': u'0:n8m, u'attr1': u'ok'},
{u'partyField': u'0:n8m, u'attr1': u'ok'})
但是我想有一些键组合,因为我想用一个参数来分组,这个参数是值的一部分,即partyField
我希望得到一个与此类似的分组,即按键分组,也按partyField
(u'0:l1', ({u'partyField': u'0:n5m, u'attr1': u'ok'})
(u'0:l1', {u'partyField': u'0:n8m, u'attr1': u'ok'},
u'0:l1', {u'partyField': u'0:n8m, u'attr1': u'ok'})
如何在spark中执行此操作
基于每个记录的
partyField
形成键,应用reduceByKey
并从reduced_rdd
中提取值例如:
希望这有帮助
相关问题 更多 >
编程相关推荐