Pandas数据帧唯一值

2条回答

网友

1楼 · 编辑于 2024-09-29 01:33:18

你对复制品的定义和熊猫用的不一样。在pandas中，如果对应的条目相同，则两行被认为是重复的。在下面的示例中，第1行和第2行不重复，因为它们对应的变量的值不同，而第3行和第4行是重复的。在

df = {'source':['acc1.yyy', 'acx1.xxx', 'acc1.xxx', 'acc1.xxx'], 'target': ['acx1.xxx', 'acc1.yyy', 'acc1.yyy', 'acc1.yyy']}
df = pd.DataFrame(df)
df
     # source    target
# 0  acc1.yyy  acx1.xxx
# 1  acx1.xxx  acc1.yyy
# 2  acc1.xxx  acc1.yyy
# 3  acc1.xxx  acc1.yyy
df.drop_duplicates()
     # source    target
# 0  acc1.yyy  acx1.xxx
# 1  acx1.xxx  acc1.yyy
# 2  acc1.xxx  acc1.yyy

对于您所提到的情况，创建一个新列，它是源列和目标列的元组。试试下面的方法

^{pr2}$

网友

2楼 · 编辑于 2024-09-29 01:33:18

您需要先对两列进行排序：

df1[['source','target']] = df1[['source','target']].apply(sorted,axis=1)
print (df1)
     source    target  metric
0  acc1.yyy  acx1.xxx   10000
1  acc1.yyy  acx1.xxx   10000

df2 = df1.drop_duplicates(subset=['source','target'])
print (df2)
     source    target  metric
0  acc1.yyy  acx1.xxx   10000

编辑：

列source似乎需要更改-删除最后3个字符：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas数据帧唯一值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >