如何检测重复项，然后在重复项之间交叉检查两列的值是否相似？

No fname sname landline address 1 Alphred Thomas 123 A 2 Peter Jay 345 B 3 Donald Hook 123 A 4 Jay Donald 345 B 5 Jay Donald 123 A 6 Haskell Peter 123 B

1条回答

网友

1楼 · 发布于 2024-09-26 18:21:11

可以使用^{}和^{}作为掩码，然后使用^{}：

mask = df.groupby(['landline','address']).apply(lambda x: x.fname.isin(x.sname) | 
                                                          x.sname.isin(x.fname) & 
                                                            (len(x) > 1))
mask = mask.reset_index(level=['landline','address'], drop=True).sort_index()
print (mask)
0    False
1     True
2     True
3     True
4     True
5    False
dtype: bool

df1 = df[mask]
print (df1)
   No   fname   sname  landline address
1   2   Peter     Jay       345       B
2   3  Donald    Hook       123       A
3   4     Jay  Donald       345       B
4   5     Jay  Donald       123       A

编辑：我想你可以用自定义函数来filtering：

def f(x):
    print (x)
    mask = x.fname.isin(x.sname) | x.sname.isin(x.fname) & (len(x) > 1)
    x1 = x[mask]
    return x1


df2 = df.groupby(['landline','address']).apply(f).reset_index(drop=True)
print (df2)
   No   fname   sname  landline address
0   3  Donald    Hook       123       A
1   5     Jay  Donald       123       A
2   2   Peter     Jay       345       B
3   4     Jay  Donald       345       B

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何检测重复项，然后在重复项之间交叉检查两列的值是否相似？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >