如何减少火花流中的两个关键点？

1条回答

网友

1楼 · 发布于 2024-10-06 14:28:37

基于每个记录的partyField形成键，应用reduceByKey并从reduced_rdd中提取值

例如：

>>> in_rdd = sc.parallelize(a)
[('0:l1', {'partyField': '0:n5m', 'attr1': 'ok'}),
 ('0:l1', {'partyField': '0:n8m', 'attr1': 'ok'}),
 ('0:l1', {'partyField': '0:n8m', 'attr1': 'ok'})]
>>> key_rdd = in_rdd.map(lambda x : (x[1]['partyField'],x))
>>> reduced_rdd = key_rdd.reduceByKey(lambda acc, curr: acc + curr)
>>> final_rdd = reduced_rdd.map(lambda x: x[1])
>>> final_rdd.collect()
[('0:l1',{'partyField': '0:n8m', 'attr1': 'ok'}, 
  '0:l1',{'partyField': '0:n8m', 'attr1': 'ok'}),

 ('0:l1',{'partyField': '0:n5m', 'attr1': 'ok'})]

希望这有帮助

编程相关推荐

H2数据库抛出一般错误：“java.lang.IllegalStateException:无法读取位置2199023614787处的页面
java MySql对动态创建的表的查询
java如何交换两个整数包装器对象
java如何同时侦听命令行和2个传入连接
数据绑定JAVA Windows Builder自动绑定JLabel，并在TimerTask中更新bean
使用简单的代码在Java或Python上创建一个Hour Glass模式？
java在Velocity中写入Springbound映射
java在通过socket接收序列化对象时获取ClassNotFoundException
java双字段索引
java如何将可变字节数组传递给DLL函数（通过JNA访问）？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何减少火花流中的两个关键点？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >