在Python中跨多个列仅保留唯一的重复行

>>> df = df[df.duplicated(['brand', 'style'], keep=False)] >>> df brand style rating 0 Yum Yum cup 4.0 1 Yum Yum cup 4.0 3 Indomie pack 15.0 4 Indomie pack 5.0

2条回答

网友
1楼 · 编辑于 2024-09-28 03:13:58

df = df[~df.duplicated()] # Add this line before df[df.duplicated(['brand', 'style'], keep=False)] brand style rating 3 Indomie pack 15.0 4 Indomie pack 5.0

网友
2楼 · 编辑于 2024-09-28 03:13:58

您可以使用groupby+nunique()根据另一列中的值查看一列中唯一值的数量：
>>> df.groupby('style')['brand'].nunique() style cup 2 pack 1 Name: brand, dtype: int64 >>> df.groupby('brand')['style'].nunique() brand Indomie 1 Nissin 1 Yum Yum 1 Name: style, dtype: int64
与往常一样，您可以使用.transform('nunique')代替原始形状来实现这一点。现在将其与第一个条件结合起来：
>>> df[df.duplicated(['style', 'brand'], keep=False) ... & df.groupby('style')['brand'].transform('nunique').eq(1) ... & df.groupby('brand')['style'].transform('nunique').eq(1)] brand style rating 3 Indomie pack 15.0 4 Indomie pack 5.0

相关问题更多 >

编程相关推荐

热门问题

热门文章