如何比较Dataframe中的多值重复项

proof_path = #1 X Y #2 Z #3 W #4 0 p1 a b p2 c p2 a p3 1 p1 a b p2 c p3 a p1 2 p1 a b p2 d p3 e p4 rule = [('#1', 'X', 'Y'), ('#2', 'X', 'Z'), ('#3', 'W', 'Z'), ('#4', 'W', 'Y')]

for depth in range(len(rule)-1): for i in range(1, len(rule)-depth): current_rComp = proof_path[[rule[depth][0], rule[depth][1], rule[depth][2]]] current_rComp.columns = ['pred', 'subj', 'obj'] next_rComp = proof_path[[rule[i+depth][0], rule[i+depth][1], rule[i+depth][2]]] next_rComp.columns = ['pred', 'subj', 'obj'] proof_path = proof_path[current_rComp.ne(next_rComp).any(axis=1)]

2条回答

网友

1楼 · 编辑于 2024-10-06 12:37:00

创建一个占位符mask，最初包含False个值，如果在相应的行中发现任何重复项，则该mask将包含True

从rule列表中生成长度为2combinations，然后对每个组合比较数据帧的切片以创建布尔掩码，现在使用all沿axis=1减少此掩码，并使用占位符掩码获取减少的掩码的逻辑or

from itertools import combinations

mask = np.full(len(df), False)
for x, y in combinations(rule, 2):
    mask |= (df[[*x]].values == df[[*y]].values).all(1)

或者，我们也可以将上述方法封装在列表中

mask = np.any([(df[[*x]].values == df[[*y]].values).all(1) 
               for x, y in combinations(rule, 2)], axis=0)

>>> df[~mask]

   #1  X  Y  #2  Z  #3  W  #4
2  p1  a  b  p2  d  p3  e  p4

网友

2楼 · 编辑于 2024-10-06 12:37:00

您可以删除列子集上具有重复项的行，如-

df = df.drop_duplicates(subset=['#1', 'X', 'Y'],keep=False)
df = df.drop_duplicates(subset=['#2', 'X', 'Z'],keep=False)
df = df.drop_duplicates(subset=['#3', 'W', 'Z'],keep=False)

有关其他参数，请参阅documentation

相关问题更多 >

编程相关推荐

热门问题

热门文章