我只想选择DF的主要部分。例如,给定
id_B, supportProgress
id1, A
id1, A
id1, A
id1, A
id1, A
id1, B
id1, B
输出为:
id_B, supportProgress
id1, A
id1, A
id1, A
id1, A
id1, A
我不能应用一个简单的过滤器,因为我不知道supportProgress的值是什么。在另一个DF中,可以是supportProgress=C,C,C,C,D,D,并且,我只想选择对应于C,C,C,C,C的部分
我的想法是做一个df.groupby(['supportProgress'])
并选择覆盖len(df)
80%以上的部分
首先需要^{} :
我不知道80%的数据,但要获取最频繁的
supportProgress
的数据,可以使用以下方法:相关问题 更多 >
编程相关推荐