如何使用下面的merge函数与pyspark合并如下所示的JSON数据行?在
注意:假设这只是一个细节示例,我有1000行数据要合并。最有效的解决方案是什么?不管是好是坏,我必须使用pyspark。在
输入:
data = [
{'timestamp': '20080411204445', 'address': '100 Sunder Ct', 'name': 'Joe Schmoe'},
{'timestamp': '20040218165319', 'address': '100 Lee Ave', 'name': 'Joe Schmoe'},
{'timestamp': '20120309173318', 'address': '1818 Westminster', 'name': 'John Doe'},
... More ...
]
期望输出:
^{pr2}$合并功能:
def reduce_on_name(a, b):
'''Combines two JSON data rows based on name'''
merged = {}
if a['name'] == b['name']:
addresses = (a['timestamp'], a['address']), (b['timestamp'], b['address'])
merged['name'] = a['name']
merged['addresses'] = addresses
return merged
好吧,用maxymo的例子,我把我自己的可重用代码放在一起。这并不完全是我想要的,但它让我更接近于我想要如何解决这个特殊问题:没有lambdas和使用可重用代码。在
我想应该是这样的:
相关问题 更多 >
编程相关推荐