我正在处理的数据集如下所示:
col1
person1 gene1
person1 gene1
person1 gene2
person1 gene3
person1 gene4
person2 gene1
person2 gene2
person2 gene3
person2 gene4
person3 gene1
person3 gene1
person3 gene1
person3 gene2
person3 gene3
person3 gene3
person3 gene4
对于每个人,我想计算一个基因出现不止一次的次数
例如,在我上面介绍的例子中,person1的基因1重复,person2的基因没有重复,person3的基因1和基因3重复。因此,我希望我的代码输出3
我知道有一个重复的熊猫代码: DataFrame.duplicated(subset=None,keep='first')
然而,试图将其应用于我的数据帧时,我总是被告知需要应用它
谢谢
我添加了一个澄清以获得更多帮助:
person1 gene1
person1 gene1
person1 gene2
person1 gene2
person2 gene1
person2 gene1
person3 gene1
person3 gene1
person3 gene2
person3 gene2
person3 gene2
你可以用
size
相关问题 更多 >
编程相关推荐