只在有pandas的组中获取重复的值

2条回答

网友

1楼 · 编辑于 2024-07-05 11:52:59

函数groupby不是必需的，为了获得更好的性能，使用^{}by multiple columns和参数keep=False获取所有重复，然后按^{}过滤：

df = df[df.duplicated(['groups','ids'], keep=False)]
print (df)
   groups  ids  numbers
0  group3  id4       89
1  group1  id1       50
2  group1  id1       30
6  group3  id4       90

如果需要排序，添加^{}和^{}作为默认索引：

df = (df[df.duplicated(['groups','ids'], keep=False)]
         .sort_values(['groups','ids'])
         .reset_index(drop=True))
print (df)
   groups  ids  numbers
0  group1  id1       50
1  group1  id1       30
2  group3  id4       89
3  group3  id4       90

网友

2楼 · 编辑于 2024-07-05 11:52:59

您可以使用：

df.groupby('groups').apply(lambda x: \
            x[x.duplicated('ids',keep=False)]).reset_index(drop=True)

输出：

   groups  ids  numbers
0  group1  id1       50
1  group1  id1       30
2  group3  id4       89
3  group3  id4       90

相关问题更多 >

编程相关推荐

热门问题

热门文章

只在有pandas的组中获取重复的值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >