我的框架:
name rs number
11 5566 64882
41 534326 5345
11 5566 3312
44 2341 5553
1 6223 2333
它有700k+行
df.rs.value_counts() =
5566 2
534326 1
2341 1
6223 1
我需要通过数值计算把这帧预测到另外两个更小的帧。
我的意思是:UniqueDF
中应该只有没有rs重复的行:
name rs number
41 534326 5345
44 2341 5553
1 6223 2333
在DuplicatedDF
中应该只有重复(所有重复的行,因为rs可以相同,但另一个col的值不同):
name rs number
11 5566 64882
11 5566 3312
我试过这样的方法:
Duplicate_rs_df = df.drop(df.index[np.where(df.rs.value_counts() <1)])
unique1 = df.drop(df.index[np.where(df.rs.value_counts() >1)])
但是当我检查dfs by couts\u值时,它们仍然有重复。 我的代码中有什么错误,如何才能以更好的方式做到这一点
将^{} 和^{} 与
keep=False
一起使用:给定
df
:使用
drop_duplicates
:使用
duplicated
:或者更简单,只使用
df.duplicated('rs', False)
:您可以将两个df保存在一个dict中:
相关问题 更多 >
编程相关推荐