对列使用groupby后重复值的实例计数

2024-10-06 07:38:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理的数据集如下所示:

col1
person1  gene1
person1  gene1
person1  gene2
person1  gene3
person1  gene4
person2  gene1
person2  gene2
person2  gene3
person2  gene4
person3  gene1

person3  gene1
person3  gene1
person3  gene2
person3  gene3
person3  gene3
person3  gene4

对于每个人,我想计算一个基因出现不止一次的次数

例如,在我上面介绍的例子中,person1的基因1重复,person2的基因没有重复,person3的基因1和基因3重复。因此,我希望我的代码输出3

我知道有一个重复的熊猫代码: DataFrame.duplicated(subset=None,keep='first')

然而,试图将其应用于我的数据帧时,我总是被告知需要应用它

谢谢

我添加了一个澄清以获得更多帮助:

person1 gene1
person1 gene1
person1 gene2
person1 gene2
person2 gene1
person2 gene1
person3 gene1
person3 gene1
person3 gene2
person3 gene2
person3 gene2


Tags: 数据代码dataframe基因次数例子col1duplicated