我有一些用户数据存储在配置单元表(ORC文件格式)中,每个用户有多行。例如:
user | attr1 | attr2
---- | ----- | -----
u1 | 1 | a
u1 | 2 | b
u2 | 3 | a
u2 | 4 | b
我需要映射属于同一用户的每一组行来计算一些字符串。在本例中,f([(1, a), (2, b)])
和f([(3, a), (4, b)])
。在
如何使用Hive+Spark的pythonapi实现这一点?在
据我所见,PythonGroupedData
API只有stat函数。我应该减少底层行RDD吗?有没有一种更有效的方式可以利用Hive/ORC列格式进行分组?在
相关问题 更多 >
编程相关推荐