数据帧的丢弃百分比[Pandas]

2条回答

网友

1楼 · 编辑于 2024-06-28 11:23:21

首先，对要过滤最高90%数据的值进行排序

df.sort_values('score', ascending=False, inplace=True)

然后，计算累计和并除以总数，以满足筛选条件（可以用自定义限制替换0.9）

^{pr2}$

现在df看起来像

city          score
bangkok       60
kl            20
sydney        10

网友

2楼 · 编辑于 2024-06-28 11:23:21

我认为需要按sum的除法来计算分数，然后按^{}过滤，最后一个^{}来获得更好的过滤行性能：

a = 0.9
df = df[df['score'].div(df['score'].sum()) >= 1 - a].sort_values('score', ascending=False)

或者：

^{pr2}$

print (df)
      city  score
0  bangkok     60
1       kl     20
2   sydney     10

细节：

print (df['score'].div(df['score'].sum()))
0    0.60
1    0.20
2    0.10
3    0.05
4    0.05
Name: score, dtype: float64