我有一个数据帧,看起来像这样:
Priority RID_solve Prob RID_prob Remarks
0 1 5001 34.4% 5040 Caution: FIDs are different
1 1 5001 38.5% 5057 Caution: FIDs are different
2 1 5001 3.3% 5056 Caution: FIDs are different
3 2 5002 74.0% 5057 Caution: FIDs are different
4 2 5002 87.6% 5056 Caution: FIDs are different
5 3 5003 89.4% 5056 Same FID
6 3 5003 89.4% 5056 Caution: FIDs are different
然后我使用set_index()
对相似的Priority
和RID_solve
数据进行分组,这样就可以消除重复。这是我写的代码:
df1 = df.set_index(['Priority', 'RID_solve', 'Prob', 'RID_prob', 'Remarks']).sort_values(by=['Priority'], ascending = True)
给出如下数据:
这正是我想要的。但我也需要以0
开头的正常索引。到目前为止,我还不知道如何得到它。我试过reset_index()
,但那只是把我的数据改回原来的形式
有没有办法保持上述格式不变并获得索引呢
不,你错了。重复不会被删除,只是不会显示,所以您必须决定是需要
MulitIndex
还是默认RangeIndex
您可以检查:
编辑:
如有必要,可以用缺少的值替换重复的值:
但如果复制项不在第一列中,仅在第二列或更多列中,则获取:
相关问题 更多 >
编程相关推荐