我有一个包含两列的数据帧,A
和B
。在这种情况下A
和B
的顺序并不重要;例如,我认为{{CD5}}和^ {< CD6}}是重复的。在pandas中,从数据帧中删除这些重复项的有效方法是什么
import pandas as pd
# Initial data frame.
data = pd.DataFrame({'A': [0, 10, 11, 21, 22, 35, 5, 50],
'B': [50, 22, 35, 5, 10, 11, 21, 0]})
data
A B
0 0 50
1 10 22
2 11 35
3 21 5
4 22 10
5 35 11
6 5 21
7 50 0
# Desired output with "duplicates" removed.
data2 = pd.DataFrame({'A': [0, 5, 10, 11],
'B': [50, 21, 22, 35]})
data2
A B
0 0 50
1 5 21
2 10 22
3 11 35
理想情况下,输出将按列A
的值排序
在删除重复项之前,可以对数据帧的每一行进行排序:
如果希望结果按列
A
排序:这里有一个更丑陋但更快的解决方案:
定时:用于8K行DF
df.T.apply(已排序).T.drop_duplicates()
相关问题 更多 >
编程相关推荐