对列使用groupby后重复值的实例计数

2024-10-06 07:38:01 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在处理的数据集如下所示：

col1
person1  gene1
person1  gene1
person1  gene2
person1  gene3
person1  gene4
person2  gene1
person2  gene2
person2  gene3
person2  gene4
person3  gene1

person3  gene1
person3  gene1
person3  gene2
person3  gene3
person3  gene3
person3  gene4

对于每个人，我想计算一个基因出现不止一次的次数

例如，在我上面介绍的例子中，person1的基因1重复，person2的基因没有重复，person3的基因1和基因3重复。因此，我希望我的代码输出3

我知道有一个重复的熊猫代码： DataFrame.duplicated（subset=None，keep='first'）

然而，试图将其应用于我的数据帧时，我总是被告知需要应用它

谢谢

我添加了一个澄清以获得更多帮助：

person1 gene1
person1 gene1
person1 gene2
person1 gene2
person2 gene1
person2 gene1
person3 gene1
person3 gene1
person3 gene2
person3 gene2
person3 gene2

Tags：数据代码 dataframe 基因次数例子 col1 duplicated

1条回答

网友

1楼 · 发布于 2024-10-06 07:38:01

你可以用size

df.groupby([*df.columns]).size().gt(1).sum()
Out[37]: 3

对列使用groupby后重复值的实例计数

相关问题更多 >

编程相关推荐

热门问题

热门文章

对列使用groupby后重复值的实例计数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >