我有一个示例数据帧df
:
GridCode,User,DLang
3,224591119,es
3,224591119,ja
3,224591119,zh
4,224591119,es
6,146381773,en
9,17925282,ca
我想对User
字段进行分组,只保留最频繁的DLang
代码,然后取消堆叠并计算每个GridCode
中User
的数量。到目前为止,我做到了:
正确返回:
DLang ca en es ja zh
GridCode
3 0 0 1 1 1
4 0 0 1 0 0
6 0 1 0 0 0
9 1 0 0 0 0
但是,正如您在df
中看到的,有些用户有多个DLang
个条目(例如用户224591119),但我只想计算他们最频繁的DLang
代码(例如,对于该用户,它是es
)。产生的数据帧将是:
DLang ca en es
GridCode
3 0 0 1
4 0 0 1
6 0 1 0
9 1 0 0
首先,计算一个特定的
DLang
发生的次数,在GridCode
上取平均值。在然后,使用
^{pr2}$first()
函数来查找每个用户最频繁/最多出现的次数。在将最频繁/最大出现次数的数据流与原始输入合并。这将删除用户使用
^{3}$DLang
而不是最常用的DLang
的行最后,对所有用户进行平均,以获得最终计数。在
相关问题 更多 >
编程相关推荐